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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

(§) Registrierverfahren 

(57) Beschrieben wird ein Verfahren zum Betrieb einer um- 
konfigurierbaren Einheit. Es wird dabei vorgeschlagen, 
dass Quittierungssignale der die umkonfigurierbaren Ein- 
heit bildenden Zellen zeitlich versetzt zu deren Konfigura- 
tion ausgewertet werden. 
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Beschreibung 

Aufgabe der Erfindung und Anwendungsbereiche 

5 [0001] RDY/ACK/REJ-Protokoll und Deadlock-Freiheit. 

[0002] Das aus PACT10 bekannte RDY/ACK/REJ Protokoll kann nicht iiber mehrere Register gepipelined werden. 
[0003] Zur Erhohung der Grundfrequenz einer VPU sind mehrere Registerstufen jedoch zwingend notwendig. Da- 
durch ergibt sich eine unakzeptable Verzogerung bis zum Eintxeffen der Quittierung der Konfigurationsdaten bei dem 
CT. 

10 [0004] Es werden im folgenden zwei grundlegende Losungen fur dieses Problem aufgezeigt: 

1 . Lookup-Tabcllen 

[0005] In eine CT oder 2602 interne Tabelle wird der Zustand der einzelnen PAEs verwaltet D. h. fur jede PAE exisi- 
15 tert ein Eintrag, der anzeigt ob die PAE unkonfiguriert werden kann. 

a) Jede PAE sendet ein Statussignal an die Tabelle wenn sich ihr Zustand von "nicht umkonfigurierbar" auf "konfi- 
gurierbar" andert. Dieses Statussignal kann gepipelined gesendet werden. 

b) Ebenfalls ist es moglich, daB ein Statussignal fiir eine Gruppe von PAEs gesendet wird, das anzeigt, daB sich der 
20 Zustand fur die gesamte Gruppe geandert hat. Uber cine Listc werden samtliche PAEs die zur Gruppe gehoren aus- 

gewahlt und der Zustand fur jede einzelne PAE in der Tabelle geandert. 

[0006] Zur Uberprufung des Zustandes einer PAE wird 

25 a) vor dem Ausfuhren der pa-Befehle wird jede darin enthaltene PAE gepruft, indem fur jede PAE ein Lookup in 

der Tabelle durchgefuhrt wird. Eine nicht konfigurierbare PAE fuhrt zu einem Abbruch, der pa-Befehl wird nicht 
ausgefuhrt; oder 

b) beim Absenden der Adresse der Ziel-PAE durch ein pa-Befehl wird die Lookuptabelle abgefragt und dement- 
sprechend ein ACK oder REJ generiert (dieser Ansatz entspricht dem herkommlichen RDY/ACK/REJ Verfahren). 

30 

2. Auswerten der ACK/REJ Quittierung mit Latency 

[0007] Das RDY-Signal wird mit den Konfigurationsdaten iiber mehrere Pipeline-Stufen an die Ziel-PAE gesendet. 
35 Die Konfigurationsdaten werden nicht sofort im entsprechenden Konfigurationsregister gespeichert, sondern in ein tem- 
porares Register geschrieben. Die PAE generiert die ACK/REJ-Quittierung gemaB des intern verwalteten Umkonfigura- 
tionsstatus (vgl. PACT10). Die Quittierung wird ebenfalls gepipelined an die CT zuruckgesendet. In der CT existiert ein 
Zahler der bei jedem eintreffenden ACK urn eins erhoht wird. In einem separaten Register wird gespeichert, ob ein REJ 
auftrat wurde. 

40 [0008] Nachdem der pa-Befehl abgeschlossen wurde wird nach einer Latency von n-Takten der Zahler und das Regi- 
ster ausgewertet. Ist in dem Register ein REJ vermerkt, muB der pa-Befehl nochmals ausgefuhrt werden. Dazu wird der 
Zahlerstand entweder in den OfTsetspeicher kopiert (pabmm) oder in das angegebenc Register gespeichert (pabnur). Der 
Wert reprasentiert das Konfigurationswort, das mit einem REJ-quittiert wurde und nochmals ausgefuhrt werden muB. 
[0009] Terminiert der pa-Befehl ohne Auftreten eines REJ wird ein Signal STORE an die beteiligten PAEs gesendet. 

45 Daraufhin werden die Konfigurationsworter von dem temporaren Register in das entsprechende Konfigurationsregister 
geschrieben und die Datenoperationen werden gestartet. 

[0010] IST DAS SAUBER? DEADLOCK, was ist mit PAEs, die nach dem REJ aufgrund der Latency noch Daten ab- 
bekamen?! 

[0011] Keine OK-Leitung verwenden, sondern ein Register bei den entsprechenden PAEs einfuehren. 

50 

Wave-Reconfiguration 

[0012] Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist es moglich mehrere Module zu uberlappen. 
D. h. mehrere Module sind gleichzeitig in den PAEs vorkonfiguriert und es kann mit minimalem Zeitaufwand zwischen 
5S den Konfigurationen urageschaltet werden, so daB aus einer Menge von mehreren Konfigurationen pro PAE immer ge- 
nau eine Konfiguration aktiviert ist. 

[0013] Wesentlich ist, daB dabei in einer Menge von PAEs in die ein Modul A und B vorkonfiguriert ist, ein Teil der 
Menge mit einem Teil von A und eine anderer Teil der Menge gleichzeitig mit einem Teil B aktiviert sein kann. Dabei ist 
die Trennung der beiden Teile exakt durch die PAE gegeben, in der der Umschaltezustand zwischen A und B auftritt. Das 
60 bedeutet, daB ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei denen vor diesern Zeitpunkt A zur Ausfuh- 
rung aktiviert war B aktiviert ist und bei alien anderen PAEs nach diesern Zeitpunkt immer noch auf A aktiviert ist. Mit 
steigender Zeit wird bei immer mehr PAEs B aktiviert. 

[0014] Die Umschaltung erfolgt aufgrund von bestimmten Daten, Zustanden die sich aus der Berechnung der Daten er- 
gebcn oder aufgrund beliebiger anderer Ereignisse, die beispielsweise von extern oder der CT generiert werden. 
65 [0015] Das bewirkt, daB direkt nach Verarbeitung eines Datenpaketes zu einer anderen Konfiguration umgeschaltet 
werden kann. Gleichzeitig/Altemativ kann ein Signal (RECONFIG-TRIGGER) an den CT gesendet werden, das das 
Vorladen von neuen Konfigurationen durch den CT bewirkt. Das Vorladen kann dabei auf anderen von der aktuellen Da- 
ten verarbeitung abhangigen oder unabhangigen PAEs erfolgen. Durch eine Entkopplung der aktiven Konfiguration von 
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Die Zustandsinformationen des Prozessomiodells 

[0029] Zur Bestimmung der Zustande innerhaib eines Graphen werden die Statusregister der einzelnen Zellen (PAEs) 
uber ein zusatzlich zum Datenbus (0801) existierendes, frei rout- und segmentierbares Status-Bussystem (0802) alien an- 

5 deren Rechenwerken zur Verfugung gestellt (Fig. 8b). Das bedeutet, daB eine Zelle (PAE X) die Statusinformation einer 
andern Zelle (PAE Y) evaluieren kann und dementsprechend die Daten verarbeitet. Urn den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeutlichen, ist in Fig. 8a der Stand der Technik angegeben. Dabei ist ein Multiprozessor- 
system gezeigt, dessen Prozessoren uber einen gemeinsamen Datenbus (0803) miteinander verbunden sind. Ein explizi- 
tes Bussystem harden synchronen Austausch von Daten und Status existiert nicht. 

10 [0030] Mit anderen Worten ausgedriickt, stellt das Netzwerk der Statussignale (0802) ein frei und gezielt verteiltes Sta- 
tusregister eines einzelnen herkommlichen Prozessors (oder mehrerer Prozessoren eines SMP-Computers) dar. Der Sta- 
tus jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und insbesondere jede einzelnc Information des Status stent 
jeweils dem oder den ALUs (Prozessoren) zur Verfugung, die die Information benotigen. Dabei entsteht keine zusatzli- 
che Programm- oder Kommunikationslaufzeit (abgesehen von den Signalllaufzeiten) um die Informationen zwischen 

15 den ALUs (Prozessoren) auszutauschen. 

[0031] AbschlieBend soil angemerkt werden, daB je nach Aufgabe sowohl der DatenfluBgraph, als auch der Kontroll- 
fluBgraph entsprechend dem beschriebenen Verfahren behandelt. werden kann. 

Virtual Machine Modell 

20 

[0032] Die Grundlagen der Datenverarbeitung mit VPU-Bausteinen sind entsprechend der vorhergehenden Abschnitte 
hauptsachlich datenfluBorientiert. Um sequentielle Programme mit ordentlicher Leistung abzuarbeiten, istes jedoch not- 
wendig ein sequentielles Datenverarbeitungsmodell zur Verfugung zu haben. Dabei sind oftmals die Sequenzer in den 
einzelnen PAEs nicht ausreichend. 
25 [0033] Die Architektur von VPUs ermoghcht jedoch grundsatzlich den Aufbau von beliebig komplexen Sequenzern 
aus einzelnen PAEs. 
[0034] Das bedeuted: 

1. Es konnen komplexe Sequenzer konfiguriert werden, die exakt den Anforderungen des Algorithmus entspre- 
30 chen. 

2. Der DatenfluB kann durch entsprechende Konfiguration, exakt die Rechenschritte des Algorithmus reprasentie- 
ren. 

[0035] Dadurch kann eine Virtuelle Maschine auf VPUs implementiert werden, die insbesondere auch den sequentiel- 

35 len Anforderungen eines Algorithmus entspricht. 

[0036] Hauptvorteii der VPU-Architektur ist, daB ein Algorithmus durch einen Compiler so zerteilt werden kann, daB 
die DatenfluBteile extrahiert werden durch einen "optimalen" DatenfluB reprasentiert werden, indem ein angepaBter Da- 
tenfluB konfiguriert wird UND die sequentiellen Teile des Algorithmus durch einen "optimalen" Sequenzer reprasentiert 
werden, indem ein angepaBter Sequenzer konfiguriert wird. Dabei konnen gleichzeitig mehrere Sequenzer und Daten- 

40 fliisse auf einer VPU untergebracht werden, ausschlieBlich abhangig von den zur Verfugung stehenden Ressourcen. 
[0037] Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhaib einer VPU sehr viele lokalen Zustande. Bei 
Taskwechseln oder Unterprograiiun-Aufrufen (Interrupts) miissen diese Zustande gesichert werden (vgl. PUSH/POP bei 
Standardprozessoren). Dies ist jedoch aufgrund derMenge an Zustanden nicht sinnvoll moglich. 

[0038] Um die Zustande auf eine handhabbare Menge zu reduzieren muB zwischen zwei Arten von Zustanden unter- 
45 schieden werden: 

1. Zustandsinformationen des Maschinemnodells (MACHINE-STXTE). Diese Zustandsinformationen sind nur in- 
nerhaib der Abarbeitung eines bestimmten Modules giiltig und werden auch nur lokal in den Sequenzern und Da- 
tenfluBeinheiten dieses bestimmten Modules verwendet. D. h. diese MACHINE-STATEs reprasentieren die Zu- 

50 stande, die in Prozessoren nach dem Stand der Technik verdeckt innerhaib der Hardware ablaufen, implizit in den 

Befehlen und den Verarbeitungsschritten sind und nach Ablauf eines Befehles keine weitere Information fur nach- 
folgende Befehle beinhalten. Derartige Zustande brauchen nicht gesichert zu werden. Bedingung dafiir ist, daB In- 
terrupts nur nach kompletter Ausfuhrung aller gerade aktiven Module durchgefuhrt werden. Stehen Interrupts zur 
Ausfuhrung an, werden keine neuen Module geladen, sondern nur noch aktive abgearbeitet; ebenfalls werden den 

55 aktiven Modulen, soweit es der Algorithmus zulaBt keine neuen Operanden mehr zugefuhrt. Dadurch wird ein Mo- 

dul zu einer atomaren nicht unterbrechbaren Einheit, vergleichbar mit einer Instruktion eines Prozessors nach dem 
Stand der Technik. 

2. Zustande der Datenverarbeitung (DATA-STATE). Die datenbezogenen Zustande miissen beim Auftreten eines 
Interrupts entsprechend den Prozessormodellen nach dem Stand der Technik gesichert und in den Speicher ge- 

60 schrieben werden. Das sind bestimmte notwendige Register und Flags oder - entsprechend der Begriffe der VPU- 
Technologie - Trigger. 

[0039] Bei den DATA-STATEs kann die Handhabung je nach Algorithmus weiter vereinfacht werden. Zwei grundle- 
gende Strategien werden im Folgenden nahers erlautert: 

65 

1. Mitlaufen der Zustandsinformation 
[0040] Dabei werden alle relevanten und zu einem spateren Zeitpunkt benotigten Zustandsinformationen von einem 
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Modul zum nachsten ubertragen, wie es in Pipelines oftmals standardmaBig implementiert ist. Die Zustandsinformauo- 
nen werden dann zusammen mit den Daten implizit in einem Speicher abgelegt, sodaB die Zustande bei einem Abruf der 
Daten zugleich zur Verfiigung stehen. Ein explizites Handhaben der Zuslandsinfonnalionen i. b. mittels PUSH und POP 
entfallt dadurch, was je nach Algorithmus einerseits zu einer wesentlichen Beschleunigung der Abarbeitung und ande- 
rerseits zu eincr vereinfachtcn Programmicrung fuhrt. 5 
[0041] Die Zustandsinformaton kann wahlweise entweder mit dem jeweiligen Datenpaket gespeichert werden, oder 
nur im Falle eines Interrupts gesichert und besonders gekennzeichnet werden. 

2. Sichern der Reentry Adresse 

10 

[0042] Bei der Verarbeitung von groBen Datenmengen, die in einem Speicher abgelegt sind, ist kann es sinnvoll sein 
die Adresse mindestens einer der Operanden des gcradc vcrarbeiteten Datenpaketes mit dem Datenpaket zusammen 
durch die PAEs zu leiten. Dabei wird die Adresse nicht modifiziert sondem steht beim Schreiben des Datenpaketes in ein 
RAM als Pointer auf den letzten verarbeiteten Operanden zur Verfugung. 

[0043] Dieser Pointer kann wahlweise entweder mit dem jeweiligen Datenpaket gespeichert werden, oder nur im Falle 15 
eines Interrupts gesichert und besonders gekennzeichnet werden. Insbesondere, wenn samtliche Pointer auf die Operan- 
den durch eine Adresse (oder eine Gruppe von Adressen) berechnet werden konnen ist es sinnvoll nur eine Adresse (oder 
eine Gruppe von Adressen) zu sichern. 

,, ULIW"-' , UCISC rt -Modell 20 

[0044] Fur das Verstandnis dieses (einem Prozessor nach dem Stand der Technik sehr ahlichen) Modells ist eine Erwei- 
terung der Betrachtungsweise der Architektur von VPUs erforderlich. Dabei dient das Virtual-Machine Modell als 
Grundlage. 

[0045] Das Array aus PAEs (PA) wird als in ihrer Architektur konfigurierbare Recheneinheit betrachtet. Der/die CT(s) 25 
stellen eine Ladeeinheit (LOAD-UNIT) fur Opcodes dar. Die IOAG(s) ubernehmen das Businterface und/oder den Re- 
gistersatz. 

[0046] Diese Anordnung ermoglicht zwei grundsatzliche Funktionsweisen, die im Betrieb gemischt verwendbar sind: 

1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur Ausfuhrung eines komplexen Befehls oder Be- 30 
fehlsfolge konfiguriert und danach werden die auf diesen Befehl bezogenen Daten (das kann auch ein einziges Da- 
tenwort sein) verarbeitet. Danach wird diese Gruppe umkonfiguriert, zur Abarbeitung des nachsten Befchlcs. Dabei 
kann sich die GroBe und Anordnung der Gruppe andern. GemaB den bereits besprochenen Partitionierungstechno- 
logien obliegt es dem Compiler, moglichst optimale Gruppen zu schaffen. Durch den CT werden Gruppen als Be- 
fehle auf den Baustein "geladen", dadurch ist des Verfahren mit dem bekannten VLIW vergleichbar, nur daB erheb- 35 
lich mehr Rechenwerke verwaltet werden UND die Vernetzungsstruktur zwischen den Rechenwerken ebenfalls 
vom Instrukuonswort abgedeckt werden kann (Ultra Large Instruction Word = "ULTW"). Dadurch laBt sich ein sehr 
hoher Instruktion Level Parallelism (ILP) erreichen. (siehe auch Fig. 27). Ein Instruktionswort entspricht dabei ei- 
nem Modul. Mchrere Module konnen gleichzeitig verarbeitet werden, sofern es die Abhangigkeit der Daten zulaBt 
und geniigend Ressourcen auf dem Baustein frei sind. Wie bei VLIW-Befehlen wird fur gewohnlich nach Ausfuh- 40 
ren des Instruktionswortes sofort das nachste Instruktionswort geladen. Zur zeitlichen Optimierung ist es dabei 
moglich das nachste Instruktionswort bereits wahrend der Ausfuhrung vorzuladen (vgl. Fig. 10). Bei mehreren 
moglichen nachsten Instruktionsworten konnen mehrere vorgeladen werden und vor der Ausfuhrung wird z. B. 
durch ein Triggersignal das korrekte Instruktionswort ausgewahlt. (siehe Fig. 4a B1/B2, Fig. 15 ID CAD K, Fig. 36 
A/B/C) 45 

2. Eine Gruppe von PAEs (das kann auch eine PAB sein) wird zur Ausfuhrung einer haufig gebrauchten Befehls- 
folge konfigurierL Die Daten, das kann auch hier ein einzelnes Datenwort sein, werden bei Bedarf der Gruppe zu- 
gefuhrt und von der Gruppe empfangen. Diese Gruppe bleibt uber eine Vielzahl von Takten ohne Umkonfiguration 
bestehen. Vergleichbar ist diese Anordnung mit einem speziellen Rechenwerk in einem Prozessor nach dem Stand 

der Technik (z. B. MMX), das fiir Spezialaufgaben vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen 50 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes generierbar, mit dem Vorteil, daB diese Befehle an- 
wendungsspezifisch geschaffen werden konnen (Ultra-CISC = "UCISC"). 



Erweiterung des RDY/ACK-Protokolls (vgl. PACT02) 55 

[0047] In PACT02 ist ein RDY/ACK-Standardprotokoll beschrieben, das die wesentlichen Anforderungen gemaB den 
Synchronisationen von DE 44 16 881 in Hinblick auf eine typische DatenfluBapplikation beschreibt. Nachteil des Proto- 
kolles ist, daB lediglich Daten gesendet und der Empfang bestatigt werden kann. Der umgekehrte Fall, indem Daten an- 
gefordert werden und das Versenden bestatigt wird (im Folgenden REQ/ACK genannt, ist zwar elektrisch mit demselben 60 
Zweidrahtprotokoll losbar, jedoch semantisch nicht erfaBt. Das gilt insbesondere, wenn REQ/ACK und RDY/ACK ge- 
mischt betrieben werden. 

[0048] Daher wird die klare Unterscheidung der Protokolle eingefuhrt: 
RDY: Daten liegen beim Versender fur den Empfanger bereit 

REQ: Daten werden vom Empfanger beim Versender angefordert 65 
ACK: Allgemeine Bestatigung fur erfolgten Empfang oder Versand 

(Prinzipiell konnten auch zwischen ACK fur ein RDY und einem ACK fur ein REQ unterschieden werden, jedoch ist in 
den Protokollen die Semantik des ACKs fur gewohnlich implizit). 
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Speichermodell 

[0049] In VPUs konnen Speicher inlegrierl werden (einer oder mehrere), die ahnlich einer PAE angesprochen werden. 
Es wird im folgenden ein Speichermodell beschrieben, das gieichzeitig ein Interface zu externer Peripherie und/oder ex- 
5 terncm Speicher darstellt: 

[0050] Ein VPU-interner Speicher mit PAE-ahnlichen Busfunktionen kann verschiedene Speichermodi darstellen: 

1 . Standardspeicher (Random Access) 

2. Cache (als Erweiterung des Standardspeichers) 
10 3. Lookup-Tabelle 

4. FIFO 

5. UFO (Stack) 

[0051] Dem Speicher ist ein steuerbares Interface zugeordnet, das Speicherbereiche wahlweise wort- oder blockweise 
15 schreibt oder liest. 

[0052] Dadurch ergeben sich folgende Nutzungsmoglichkeiten: 

1. Enlkopplung von Datenstromen (FIFO) 

2. Schneller ZugrifF auf selektierte Speicherbereiche eines externen Speichers, was eine Cacheahnliche Funktion 
20 darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Tiefe (LIFO) 

[0053] Dabei kann das Interface benutzt werden, es ist jedoch nicht zwingend notwendig, wenn die Daten z. B. aus- 
schlieBlich lokal in der VPU verwendet werden und der Speicherplatz eines internen Speichers ausreicht. 

25 

Stack Modell 

[0054] Durch Verwendung des REQ/ACK-Protokolls und der internen Speicher im LIFO-Modus kann ein einfacher 
Stack-Prozessor aufgebaut werden. Dabei werden temporare Daten von den PAEs auf den Stack geschrieben und bei Be- 
30 darf von dem Stack geladen. Die hierfur notwendigen Compilertechnologien sind hinreichend bekannt. Durch die vari- 
ierbare Stacktiefe, die durch einen Datenaustausch des intemen Speicher mit einem externen Speicher erreicht wird, 
kann der Stack beliebig groB werden. 

Akkumulator Modell 

35 

[0055] Jede PAE kann eine Recheneinheit nach dem Akkumulatorprinzip darstellen. Wie aus PACT02 bekannt ist es 
moglich die Ausgangsregister auf den Eingang der PAE ruckzukoppetn. Dadurch entstehl ein Akkumulator nach dem 
Stand der Technik. In Verbindung mit dem Sequenzer nach Fig. 11 lassen sich einfache Akkumulator-Prozessoren auf- 
bauen. 

40 

Register Modell 

[0056] Durch Verwendung des REQ/ACK-Protokolls und der internen Speicher im Standardspeicher-Modus kann ein 
einfacher Register-Prozessor aufgebaut werden. Dabei werden die Registeradressen von einer Gruppe von PAEs gene- 
45 riert, wahrend eine andere Gruppe von PAEs die Verarbeitung der Daten ubernimmt. 

Architektur des Speichers 

[0057] Der Speicher besitzt zwei Interface. Ein erstes, das den Speicher mit dem Array verbindet und ein zweites, das 
50 den Speicher mit einer IO-Einheit verbindet. Zur Verbesserung der Zugriffszeit sollte der Speicher als Dual-Ported-RAM 
ausgestaltet sein, wodurch Schreib- und LesezugrirTen unabhangig voneinander erfolgen konnen. 
[0058] Das erste Interface ist ubliches PAE-Interface (PAEI), das den Zugang zum Bussystem des Arrays gewahrlei- 
stet, sowie die Synchronisation und Triggerverarbeitung sicherstellt. Trigger konnen verwendet werden und verschie- 
dene Zustande des Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, beispielsweise 

55 

1. Empty/Full: Beim Einsatz als FIFO wird der FTFO-Zustand "volT, "fast-volT, "leer", "fast-leer" angezeigt; 

2. Stack overrun/underrun: Beim Einsatz als Stack werden Oberlauf und Unterlauf des Stacks signalisiert; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, ob eine Adresse im Cache gefunden wurde; 

4. Cache flush: Durch einen Trigger wird das Schreiben des Caches in den externen RAM erzwungen. 

60 

[0059] Dem PAE-Interface zugeordnet ist eine konfiguricrbare Zustandsmaschine, die die verschiedenen Betriebsarten 
steuert. Der Zustandsmaschine ist ein Zahler zugeordnet um die Adressen im FIFO- und LIFO-Modus zu generieren. Die 
Adressen werden uber einen Multiplexer an den Speicher geftihrt, damit zusatzlich Adressen, die im Array generiert wer- 
den an den Speicher gefuhrt werden konnen. 
65 [0060] Das zweite Interface dient zum AnschluB einer IO-Einheit (IOI). Die IO-Einheit ist als konfigurierbarer Kon- 
troller mit einem externen Interface ausgestaltet. Der Kontroller liest oder schreibt wort- oder blockweise Daten in bzw. 
aus dem Speicher. Die Daten werden mit der IO-Einheit ausgetauscht. Weiterhin unterstutzt der Kontroller mittels eines 
zusatzlichen TAG-Speichers diverse Cache-Funktionen. 



6 



DE 100 28 397 A 1 

[0061] IOI und PAH sind miteinander synchronisiert, sodaB keine Kollision der beiden Interface eintritt. Die Synchro- 
nistation ist je nach Betriebsart unterschiedlich, wahrend beispielsweise im Standardspeicher- oder Stack-Mode imnier 
nur entweder das IOI oder das PAEI auf den gesamten Speicher zugreifen kann, ist im FIFO-Modus die Synchronisation 
zeilenweise, d. h. wahrend IOI auf eine Zeile x zugreift, kann das PAEI auf jede andere Zeile ungleich x gleichzeitig zu- 
greifen. 5 
[0062] Die IOEinheit wird entsprechend der peripheren Erfordernisse ausgestaltet, beispielsweise: 

1. SDRAM Kontroller 

2. RDRAM Kontroller 

3. DSP-Bus Kontroller io 

4. PCI Kontroller 

5. Scricller Kontroller (z.B.NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

[0063] Eine VPU kann beliebige Speicherelemente mil beliebigen IO-Einheiten besilzen. Dabei konnen unlerschiedli- 15 
che IO-Einheiten auf einer VPU implementiert sein. _ . ^ . 

Funktionsweise 

1 . Standardspeicher 20 
1.1 intern/lokal 

[0064] Uber das PAEI werden Daten und Adressen mit Speicher ausgetauscht. Die adressierbare SpeichergroBe ist 
durch die SpeichergroBe beschrankt. 25 

1 .2 extern/memory mapped window 

[0065] i Jber das PAEI werden Daten und Adressen mit dem Speicher ausgetauscht. Im Kontroller des IOI ist eine Ba- 
sisadresse im externen Speicher angegeben. Der Kontroller liest blockweise Dalen von der externen Speicheradresse und 30 
schreibt sie in den Speicher, wobei die internen und externen Adressen jeweils inkrementiert (oder dekrementiert) wer- 
den; so lange, bis der gesamte interne Speicher iibertragen wurde oder eine voreingestellte Grenzc erreicht wurde. Das 
Array arbeitet mit den lokalen Daten, bis diese vom Kontroller wieder in den extemen Speicher geschrieben werden. Das 
Schreiben verlauft analog dem beschriebenen Lesevorgang. 

[0066] Das Lesen und Schreiben durch den Kontroller kann 35 

a) durch Trigger angestoBen werden oder 

b) durch einen Zugriff des Arrays auf eine nicht lokal 

gespeicherte Adresse. Greift das Array auf eine derartige Adresse zu, wird zunachst der interne Speicher in den externen 40 
geschrieben und danach der Speicherblock urn die gewunschte Adresse nachgeladen. 

[0067] Diese Betriebsart ist besonders fur die Implementierung eines Registersatzes fiir einen Rcgisterprozessor inter- 
essant. Durch einen Trigger kann in diesem Fall das Push/Pop des Registersatzes mit dem externen Speicher fur einen 
Taskwechsel oder eine Kontextumschaltung realisiert werden. 



1.3 extern/lookup table 



2. FIFO 



45 



[0068] Die Lookup Tabellen Funktion ist eine Vereinfachung von 1.2. Dabei werden die Daten entweder einmal oder 
mehrmals durch einen CT- Aufruf oder einen Trigger vom externen RAM in den internen gelesen. Das Array liest Daten 
aus dem internen Speicher, schreibt jedoch keine Daten in den internen Speicher. Die Basisadresse im externen Speicher 50 
ist im Kontroller entweder durch die CT oder das Array gespeichert und kann zur Laufzeit verandert werden. Das Laden 
aus dem externen Speicher wird entweder von der CT oder durch einen Trigger aus dem Array ausgelost und kann eben- 
falls zur Laufzeit geschehen. 

1.4 extern/cached 55 

[0069] In diesem Modus greift das Array wahlweise auf den Speicher zu. Der Speicher arbeitet wie ein Cache-Speicher 
fiir den extemen Speicher nach dem Stand der Technik. Durch einen Trigger aus dem Array oder durch die CT kann des 
leeren des Caches (d. h. das vollstandige Schreiben des Caches in den externen Speicher) hervorgerufen werden. 



60 



[0070] Der FIFO-Modus wird ublicherweise verwendet, wenn Datenstrome von extern an die VPU gefiihrt werden. 
Dann dient der FIFO als Entkopplung zwischen der externen Datenverarbeitung und der VPU-intemen Datenverarbei- 
tung, derart daB entweder von extern auf den FIFO geschrieben wird und von der VPU gelesen oder genau umgekehrt. 65 
Die Zustande des FIFOs werden durch Trigger zum Array und ggf. auch nach extern signalisiert. Der FIFO selbst wird 
nach dem Stand der Technik mit unterschiedlichen Schreib- und Lesezeigem implementiert. 
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3. Stack/intern 

[0071] Durch ein Adressregister wird ein interner Stack aufgebaut. Bei jedeni Schreibzugriff auf den Speicher durch 
das Array wird das Register je nach Mode (a) inkrementiert (b) dekrementiert. Bei Lesezugriffen vom Array aus wird des 
5 Register umgekchrt (a) dekrementiert und (b) inkrementiert. Das Register stellt fur jeden Zugriff die erforderlichc 
Adresse zur Verfugung. Der Stack ist durch die GroBe des Speichers begrenzt. Fehler (Uberlauf/Unterlauf) werden durch 
Trigger angezeigt. 

4. Stack/extem 

10 

[0072] Sofem der interne Speicher zu klein fur den Aufbau eines Stacks ist, kann er in den externen Speicher ausgela- 
gert werden. Dazu bestehtirn Kontrollerein Adresszahler fur die externe Stackadresse. Wird cine bestimmte Menge an 
Eintragen im internen Stack uberschritten, wird blockweise eine Anzahl von Eintragen auf den extemen Stack geschrie- 
ben. Der Stack wird vom Ende her, also vom aitesten Eintrag aus nach extern geschrieben, wobei eine Menge von neue- 
1S sten Eintragen nicht nach extern geschrieben wird, sondem intern verbleibt. Der externe Adresszahler (ERG) wird zei- 
lenweise modifiziert 

[0073] Nachdem Platz im internen Stack geschaffen wurde muB der verbleibende Stack-Inhalt an den Beginn des 
Stacks bewegt werden, die interne Stackadresse wird entsprechend angepaBt. 

[0074] Eine eftlzientere Variante ist des Auslegen des Stacks als Ringspeicher (vgl. PAGT04). Ein interner Adresszah- 
20 ler wird durch das Hinzufugen odcr Entferncn von Stackcintragen modifiziert. Sobald der interne Adresszahler (IAG) am 
oberen Ende des Speichers uberschreitet, zeigt er auf die unterste Adresse. Unterschreitet der IAG die unterste Adresse, 
zeigt er auf die oberste. Ein zusatzlicher Zahler (FG) zeigt den Fullstand des Speichers an, d. h. mit jedem geschriebenen 
Wort wird der Zahler inkrementiert, mit jedem gelesenen dekrementiert. Anhand des FG ist erkennbar, wann der Spei- 
cher leer, bzw. voll ist. Diese Technologie ist von FIFOs bekannt Wird damit ein Block in den externen Speicher ge- 
25 schrieben, reicht die Anpassung des FG urn den Stack zu aktualisieren. Ein extemer Adresszahler (EAG) zeigt immer auf 
den aitesten im internen Speicher befindlichen Eintrag und befindet sich damit an dem IAG entgegengesetzten Ende des 
Stacks. Der EAG wird modifiziert, wenn 

(a) Daten auf den externen Stack geschrieben werden, dann lauft er in Richtung des LAC!!, 
30 (b) Daten vom extemen Stack gelesen werden, dann entfemt er sich vom IAG. 

[0075] Durch Uberwachung des FG wird sichergestcllt, daB IAG und EAG nicht kollidiercn. 
[0076] Der ERG wird entsprechend der externen Stackoperation (Auf- oder Abbau) modifiziert. 

35 MMU 

[0077] Dem extemen Speicherinterface kann eine MMU zugeordnet werden, die zwei Funktionen erfullt: 

1 . Umrechnung der internen Adressen auf externe Adressen zur Unterstutzung moderner Betriebsysteme 
40 2. Uberwachung der Zugriffe auf externe Adressen, z, B. generieren eines Fehlersignales als Trigger, wenn der ex- 

terne Stack uber- oder unterlauft 



Gompiler 

45 

[0078] Das erfindungsgemaBe Programmierprinzip der VPU-Technologie besteht darin, sequentiellen Kode zu sepa- 
rieren und in moglichst viele kleine und unabhangige Teilalgorithmen zu zerlegen, wahrend die Teilalgorithmen des Da- 
tenfluBcodes direkt auf die VPU abgebildet wird. 

50 Trennung zwischen VPU- und Standart-Kode 

[0079] Innerhalb einer Sprache nach den Stand der Stand der Technik reprasentativ fur alle moglichen Gompiler (Pas- 
cal, Java, Fortran, etc) soil G++ im weiteren verwendet werden, kann eine spezielle Erweiterung (VC = Vpu G) definiert 
werden, die die Sprachkonstrukte und Typen enthalt, die besonders gut auf eine VPU-Technologie abbildbar sind. VGs 
55 durfen vom Programrnierer nur innerhalb von Proceduren oder Functionen verwendet werden, die keine anderen Kon- 
strukte oder TVpen verwenden. Diese Proceduren und Functionen sind direkt auf die VPU abbildbar und laufen beson- 
ders effizient ab. Der Gompiler extrahiert die VG im Praprozessor und gibt sie direkt an das VC-Backend- Processing 
(VGBP) weiter. 

60 Extraktion des parailelisierbaren Gompiler- Kodes 

[0080] Im nachsten Schritt analysiert der Gompiler die restlichen G++ Godes und extrahiert die Teile (MG = mappable 
G), die gut parallelisierbar und ohne den Einsatz von Sequenzem auf die VPU-Technologie abbildbar sind. Jedes ein- 
zelne MG wird in ein virtuelles Array plaziert und geroutet. Danach wird der Platzbedarf, sowie die zu erwartende Per- 
65 formance analysiert. Dazu wird das VGBP aufgerufen und die einzelnen MG werden zusammen mit den VC, die in je- 
dem Fall abgebildet werden, partitioniert. 

[0081] Die MGs, deren VPU-Implementierung den hochsten Leistungs-Zuwachs erzielen werden ubemoinmen, die 
restlichen werden als G++ an die nachste Compilerstufe weitergereicht. 
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Optimierender Sequenzer Generator 
[0082] Diese Compilerstufe ist je nach Architektur des VPU-Systeins unterschiedlich implementierbar: 

1 . VPU ohnc Sequenzer und externcr Prozessor 5 
[0083] vSamtliche verbleibenden C++ Kodes werden fur den externen Prozessor compiliert. 

2. Nur VPU mit Sequenzer 

10 

2.1 Sequenzer in den PAEs 

[0084] Samtliche verbleibenden C++ Kodes werden fiir die Sequenzer der PAEs compiliert. 

2.2 Konfigurierbare Sequenzer im Array 15 

[0085] Der verbleibende C++ Code wird fiir jedes unabhangige Modul analysiert. Die jeweils am besten geeignete Se- 
quenzer- Variante wird aus einer Datenbank ausgewahlt und als VC-Code (SVC) abgelegt. Dieser Schritt ist nieist itera- 
tiv, d. h. eine Sequenzer- Variante wird ausgewahlt, der Code wird compiliert, analysiert und mit dem compilierten Code 
anderer Sequenzer- Varianten verglichen. Letztlich wird der Objectcode (S VCO) des C++ Codes fiir den gewahlten SVC 20 
generiert. 

2.3 sowohl 2.1 als auch 2.2 werden verwendet 

[0086] Die Funktionsweise entspricht der von 2.2. Fiir die Sequenzer in den PAEs bestehen besondere statische Se- 25 
quenzer-Modelle in der Datenbank. 

3. VPU mit Sequenzer und externer Prozessor 

[0087] Auch diese Funktionsweise entspricht 2.2. Fur den externen Prozessor existieren besondere statische Sequen- 30 
zer-Modelle in der Datenbank. 

Linker 

[0088] Der Linker verbindet die einzelnen Module (VC, MC, SVC und SVCO) zu einem ausfuhrbaren Programm. 35 
Dazu verwendet er das VCBP um die einzelnen Module zu plazieren, zu routen und die zeitliche Partitionierung festzu- 
legen. Der Linker fiigt ebenfalls die Kominunikationsstrukturen zwischen den einzelnen Modulen hinzu und fiigt gege- 
benenfalls Register und Speicher ein. Aufgrund einer Analyse der Kontrollstrukturen und Abhangigkeiten der einzelnen 
Module werden Strukturen zum Speichern der internen Zustande des Arrays und der Sequenzer fur den Fall einer Recon- 
figuration hinzugefugt. 40 

Bemerkungen zu den Prozessormodellen 

[0089] Die verwendeten Maschinenmodell konnen innerhalb einer VPU beliebig kombiniert werden. Auch innerhalb 
eines Algorithmus kann je nach dem, welches Modell optimal ist, zwischen den Modellen gewechselt werden. 45 
[0090] Wird einem Register-Prozessor ein weiterer Speicher zugefiigt, von dem die Operanden gelesen werden und in 
den die Ergebnisse geschrieben werden, kann eine Load/Store-Prozessor aufgebaut werden. Dabei konnen mehrere ver- 
schiedene Speicher zugeordnet werden, indem die einzelnen Operanden und das Ergebnis getrennt behandelt wird. 
[0091] Diese Speicher arbeiten dann quasi als Load/Store-Einheit und stellen eine Art Cache fur den externen Speicher 
dar. Die Adressen werden durch von der Datenverarbeitung separierte PAEs berechnet. 50 

Pointer Reordering 

[0092] Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr schlecht durch Pipelines gehandhabt werden kon- 
nen. Wenn ein Pointer erst direkt vor dem Verwenden der Datenstrukturen auf die er zeigt, berechnet wird, kann haufig 55 
die Pipeline nicht schnell genug gefullt werden und die Verarbeitung wird speziell in VPUs ineffizient. 
[0093] Sicherlich ist es sinnvoll bei der Programmierung von VPUs moglichst keine Pointer zu verwenden, jedoch ist 
das oflmals nicht moglich. 

[0094] Die Losung ist, die Pointerstrukturen durch den Compiler so umzusortieren, daB die Pointeradressen moglichst 
Iange vor deren Verwendung berechnet werden. Gleichzeitig sollte es moglichst wenig direkte Abhangigkeiten zwischen 60 
einem Pointer und den Daten auf die er zeigt geben. 

Erweiterungen der PAEs (gegeniiber PI 96 5 075.9 und P196 54 846.2) 

[0095] Durch PI 96 5 1 075.9 und PI 96 54 846.2 ist der Stand der Technik in Bezug auf die Konfigurationseigenschaf- 65 
ten von Zellen (PAEs) definierl. 

[0096] Dabei soli auf zwei Eigenschaften eingegangen werden: 
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1. Einer PAE (0903) ist gemaB P196 51 075.9 ein Satz von Konfigurationsregistern (0904) zugeordnet, der eine 
Konfiguration beinhaltet (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) kann gemaB PI 96 54 846.2 auf einen Speicher zum Speichem oder Lesen von 
Daten zugreifen (Fig. 9b) 

5 

[0097] Aufgabe ist es, 

a) ein Verfahren zu schaffen, das das Umkonfigurieren von PAEs beschleunigt und zeitlich von der ubergeordneten 
Ladeeinheit entkoppelt, und 

10 b) das Verfahren so auszulegen, daB gleichzeitig die Moglichkeit geschaffen wird uber mehrere Konfigurationen zu 

sequenzen, und 

c) gleichzeitig mehrere Konfigurationen in einer PAE zu halten, von denen immcr eine aktivicrt ist und zwischen 
verschiedenen Konfigurationen schnell gewechselt werden kann. 

15 

Entkopplung der Konfigurationsregister 

[0098] Das Konfigurationsregister wird von der ubergeordneten Ladeeinheit (CT) entkoppelt (Fig. 10), indem ein Satz 
von mehreren Konfigurationsregistern (1001) verwendet wird. Immer genau eines der Konfigurationsregister bestimmt 
20 sclektiv die Funktion der PAE. Die Auswahl des aktiven Registers wird uber einen Multiplexer (1002) durchgefuhrt. In 
jedes der Konfigurationsregister kann die CT beliebig schreiben, sofern dieses nicht die aktuelle Konfiguration der PAE 
bestimmt, d. h. aktiv ist. Das Schreiben auf das aktive Register ist prinzipiell moglich, dazu stehen die in PACTtO be- 
schriebenen Verfahren zur Verfugung. 

[0099] Welches Konfigurationsregister von 1002 selektiert wird kann durch verschiedene Quellen bestimmt werden: 

25 

1 . Ein beliebiges Status-Signal oder eine Gruppe beliebiger Status-Sign ale, die uber ein Bussystem (0802) an 1002 
gefiihrt werden (Fig. 10a). Die Status-Signale werden dabei von beliebigen PAEs generiert oder durch externe An- 
schlusse des Bausteins zur Verfugung gestellt (vgl. Fig. 8) 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert wird, dient zur Selektion (Fig. 10b). 
30 3. Ein von der ubergeordneten CT generiertes Signal dient zur Selektion (Fig. 10c). 

[0100] Dabei ist es moglich wahlweise die eingehenden Signale (1003) mittels eines Registers fur einen bestimmten 
Zeitraum zu speichem und alternativ und wahlweise abzurufen. 

[0101] Durch den Einsatz mehrere Register wird die CT zeitlich entkoppelt. Das bedeutet, die CT kann mehrere Kon- 

35 figurationen "vorladen", ohne daB eine direkte zeitliche Abhangigkeit besteht. 

[0102] Lediglich wenn das selektierte/aktivierte Register in 1001 noch nicht geladen ist, wird mit der Konfiguration 
der PAE so lange gewartet, bis die CT das Register geladen hat. Um festzustellen, ob ein Register eine gultige Informa- 
tion besitzt kann beispielsweise ein "Valid-Bit" (1004) pro Register eingefuhrt werden, das von der CT gesetzt wird. Ist 
0906 bei cinem selektierten Register nicht gesetzt, wird uber ein Signal die CT zum schnellstmoglichen Konfiguriercn 

40 des Registers aufgefordert. 

[0103] Das in Fig. 10 beschriebene Verfahren ist einfach zu einem Sequenzer erweiterbar (Fig. 11). Dazu wird ein Se- 
quenzer mit Instruktionsdekoder (1101) zur Ansteuerung der Selektionssignale des Multiplexers (1002) verwendet. Der 
Sequenzer bestimmt dabei abhangig von der aktuell selektierten Konfiguration (1102) und einer zusatzlichen Statusin- 
formation (1103/1104) die nachste zu selektierende Konfiguration. Die die Statusinformation kann 

45 

(a) der Status der Status-Signal der PAE, die von 1001/1002 konfiguriert wird sein (Fig. 1 la) 

(b) ein beliebiges iiber 0802 zugefuhrtes Statu ssignal sein (Fig. 1 lb) 

(c) eine Kombination aus (a) und (b) sein. 

50 [0104] 1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 1002 ein Befehl von 1101 adressiert wird. Die 
Adressierung ist dabei abhangig vom Befehl selbst und von einem Statusregister. Insoweit entspricht der Aufbau einer 
"von Neumann" Maschine, mit dem Unterschied, 

(a) der univcrsellcn Einsetzbarkeit, also den Sequenzer nicht zu verwenden (vgl. Fig. 10) 
55 (b) daB das Statussignal nicht von dem dem Sequenzer zugeordneten Rechenwerk (PAE) generiert werden muB, 

sondem von einem beleibigen anderen Rechenwerk stammen kann (vgl. Fig. lib). 

[0105] Wichtig ist, daB der Sequenzer Spriinge, insbesondere auch bedingte Spriinge, innerhalb von 1001 ausfuhren 
kann. 

60 [0106] Ein weiteres zusatzliches oder alternatives Verfahren (Fig. 12) zum Aufbau von Sequenzern innerhalb von 
VPUs ist die Verwendung der internen Datenspeicher (1201, 0901) zum Speichem der Konfigurationsinformation fiir 
eine PAE oder eine Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers auf einen Konfigurationseingang 
oder Dateneingang einer PAE oder mehrer PAEs geschaltet (1202). Die Adresse (1203) fur 1201 kann dabei von dersel- 
ben PAE/denselben PAEs oder einer oder mehreren beliebigen anderen generiert werden. 

65 [0107] Bei diesem Verfahren ist der Sequenzer nicht fest implementiert, sondem wird durch eine PAE oder eine 
Gruppe von PAEs nachgebildet. Die internen Speicher konnen Programme aus den externen Speichem nachladen (vgl. 
erfindungsgemaBes Speichersystem). 

[0108] Zur Speicherung von lokalen Daten (z. B. fiir iterative Berechnungen und als Register fur einen Sequenzer) 
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wird die PAE mit einem zusatzlichen Registersatz versehen, dessen einzelne Register entweder durch die Konfiguration 
bestirnmt, zur ALU gefuhrt oder von der ALU beschrieben werden; oder durch den Befehlssatz eines implementierten 
Sequenzers frei benutzt werden konnen (Register Mode). Ebenfalls kann eines der Register als Akkuinulator (Akkumu- 
iator Mode) verwendet werden. Wird die PAE als vollwertige Maschine verwendet, ist es sinnvoll eines der Register als 
Adresszahler fur exlerne Datenadressen zu verwenden. 5 
[0109] Zur Verwaltung von Stacks und Akkumulatoren auBerhalb der PAE (z. B. in den erfindungsgemaBen Speichem) 
wird das bereits beschriebene RDY/ACK REQ/ACK Synchronisuonsmodell verwendet. 

[0110] PAEs nach dem Stand der Technik (vgl PACT02) sind zur Verarbeitung von bit-weisen Operationen schlecht 
geeignet, sofem die integrierte ALU bit-Operationen nicht besonders unterstutzt, bzw. schmal 2-, 4-bit breit) ausge- 
legt ist. Die Verarbeitung von einzelnen Bits oder Signalen kann efflzient gewahrleistet, indent der ALU-Kern durch ei- to 
nen FPG A-Kern (LC) ersetzt wird, der konfigurierbar logische Operationen durchfuhrt. Der LC ist dabei in seiner Funk- 
tion und interncn Vcrnctzung frci konfigurierbar. Es konnen LC nach dcm Stand der Technik eingesetzt werden. Fur be- 
stimmte Operationen ist es sinnvoll dem LC intern einen Speicher zuzuordnen. Die Interface-Baugruppen zwischen FC 
und dem Bussystem des Arrays werden nur geringfugig an den FC angepaBt, bleiben aber grundlegend bestehen. Zur fle- 
xibleren Gestaltung des Zeitverhaltens des FC ist es jedoch sinnvoll, die Register in den Interface-Baugruppen abschalt- 15 
bar zu gestalten. 

Figuren 

[0111] In Fig. 4a sind einige grundlegenden Eigenschaften des erfindungsgemaBen Verfahrens dargestellt: 20 
[0112] Die Module des Types A sind zu einer Gruppe zusammengefaBt und besitzen am Ende einen bedingten Sprung, 
entweder nach Bl oder B2. An dieser Position (0401) ist ein Umkonfigurationspunkt eingefugt, da es sinnvoll ist die 
Zweige des bedingten Sprunges als jeweils eine Gruppe zu betrachten (Fall 1). Wurden dagegen beide Zweige von B (B 1 
und B2) zusatziich zusammen mit A auf den Zielbaustein passen (Fall 2), ware es sinnvoll nur einen Umkonfigurations- 
punkt bei 0402 einzufugen, da dadurch die Zahl der Konfigurationen verringert wird und sich die Verarbeitungsge- 25 
schwindigkeit erhoht. Beide Zweige (Bl und B2) springen bei 0402 nach C. 

[0113] Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 4b schematisch dargestellt. Dabei werden die 
Funktionen der einzelnen Graphenknoten auf die Zellen des Zielbausteins abgebildet. Jeweils eine Zeile stellt eine Kon- 
figuration dar. Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine Urnkonfiguration an. Su ist eine datenspei- 
chernde Zelle, von beliebiger Ausgestaltung (Register, Speicher, etc.). Dabei ist S 0 I ein Speicher, der Daten entgegen- 30 
nimmt und S n O ein Speicher der Daten ausgibt. Der Speicher S n ist fiir gleiche n jeweils derselbe, I und O kennzeichnen 
die Datcntransferrichtung. 

[0114] Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind dargestellt. 

[0115] Das Modell in Fig. 4 entspricht einem DatenfluBmodell, jedoch mit der wesentlichen Erweiterung des Umkon- 
figurationspunkts und der damit erreichbaren Parti tionierung des Graphen, wobei die zwischen den Partitionen ubertra- 35 
genen Daten zwischengespeichert werden. 

[0116] Im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge und -Konstellation (0501) selektiv ein Graph 
B n aus einer Menge von Graphen B aufgerufen. Nach der Ausfuhrung von B gelangen die Daten nach 0501 zuriick. 
[0117] Wird in 0501 ein ausreichend groBer Sequencer (A) implementiert, ist mit dem Modell ein den typischen Pro- 
zessoren sehr ahnliches Prinzip implementierbar. Dabei gelangen 40 

1. Daten in den Sequenzer A, die dieser als Befehle dekodiert und entsprechend dcm "von Neumann" -Prinzip dar- 
auf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden und an ein fest konhguriertes Rechenwerk C zur Be- 
rechnung weitergeleitet werden. 45 

[0118] Der Graph B stellt selektierbar ein besonderes Rechenwerke und/oder besondere Opcodes fur bestimmte Funk- 
tionen zur Verfugung und wird alternativ zur Beschleunigung von C verwendet. Beispielsweise kann Bl ein optimierter 
Algorithmus zu Berechnung von Matrixmultiplikationen sein, wahrend B2 einen FIR-Filter und B3 eine Mustererken- 
nung darstellt. Entsprechend eines Opcodes der von 0501 dekodiert wird, wird der geeignete bzw. entsprechende Graph 50 
B aufgerufen. 

[0119] Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, wobei in 0502 der pipelineartige Rechenwerks- 
Character symbolisiert wird. 

[0120] Wahrend in den Umkonfigurationspunkten von Fig. 4 vorzugsweise groBere Speicher zum Zwischenspeichern 
der Daten eingefugt werden, ist eine einfache Synchronisation der Daten in den Umkonfigurationspunkten von Fig. 5 55 
ausreichend, da der Datenstrom vorzugsweise als ganzer durch den Graphen B lauft und der Graph B nicht weiter parti- 
tioniert ist; dadurch ist das Zwischenspeichern der Daten uberflussig. 

[0121] In Fig. 6a sind verschiedene Schleifen dargestellt Schleifen konnen grundsatzlich auf drei Arten behandelt 
werden: 

60 

1. Hardware- A nsatz: Schleifen werden vollstandig ausgewalzt auf die Zielhardware abgebildet (0601a/b). Wie be- 
reits erlautert ist dies nur bei wenigen Schleifenarten moglich. 

2. DatenfluB-Ansatz: Innerhalb des DatenfluBes werden Schleifen iiber mehrere Zellen hinweg aufgebaut 
(0602a/b). Das Ende der Schleife wird auf den Schleifenanfang ruckgekoppelt. 

3. Sequenzer- Ansatz: Ein Sequenzer mit minimalem Befehlssatz fuhrt die Schleife aus (0603a/b). Dabei sind die 65 
Zellen der Zielbausteine so ausgestaltet, daB sie den entsprechenden Sequenzer beeinhalten (vgl. Fig. lla/b). 

[0122] Durch eine geeignete Zerlegung von Schleifen kann deren Ausfuhrung ggf. optimiert werden: 
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1. Unter Verwendung von Optimieningsmethoden nach dem Stand der Technik laBt sich haufig der Schleifen- 
rumpf, also der wiederholt auszufiihrende Ifeil, dadurch optimieren, daB bestimmte Operationen aus der Schleife 
entfernt werden und vor oder hinter die Schleife gestellt werden (0604a/b). Dadurch wird die Menge der zu sequen- 
cenden Befehle erheblich reduziert. Die entfernten Operationen werden nur einmal vor bzw. nach Ausfuhrung der 

5 Schleife durchlaufen. 

2. Eine weitere Opumierungsmoglichkeit ist das Teilen von Schleifen in mehrere kleinere oder kiirzere Schleifen. 
Dabei findet die Teilung derart statt, daB mehrere parallele oder mehrere sequentielle (0605a/b) Schleifen entstehen. 

[0123] Fig. 7 verdeutlicht die Implementierung einer Rekursion. Dabei werden dieselben Ressourcen (0701) in Form 
10 von Zellen fur jede Rekursionsebene (1-3) verwendel. Die Ergebnisse einer jeden Rekursionsebene (1-3) werden beim 
Aufbau (0711:) in einen nach dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. Gleichzeitig mit dem Abbau 
(0712:) der Ebenen wird der Stack abgebaut. 

[0124] In Fig. 14 wird das Virtual-Machine-Modell dargestellt. Aus einem extemen Speicher werden Daten (1401) und 
zu den Daten gehdrende Zustande (1402) in eine VPU (1403) gelesen. 

15 [0125] 1401/1402 werden uber eine von der VPU generierte Adrcsse 1404 selekliert. Inncrhalb der VPU sind PAEs zu 
unterschiedlichen Gruppen zusammengefaBt (1405, 1406, 1407). Jede Gruppe besitzt einen datenverarbeitenden Teil 
(1408), der lokale impilzite Zustande (1409) besitzt, die keinen EinfluB auf die umliegenden Gruppen besitzt. Daher wer- 
den dessen Zustande nicht auBerhalb der Gruppe weitergeleitet. Er kann jedoch von den externen Zustanden abhangig 
sein. Ein weiterer Teil (1410) generiert Zustande, die EinfluB auf die umliegenden Gruppen haben. 

20 [0126] Die Daten und Zustande der Ergebnisse werden in einen weiteren Speicher (1411, 1412) abgelegt. Gleichzeitig 
kann die Adresse von Operanden (14004) als Pointer gespeichert (1413) werden. Zur zeitbche Synchronisation kann 
1404 uber Register (1414) gefuhrt werden. 

[0127] In Fig. 14 ist zur Verdeutlichung ein einfaches Modell dargestellt. Die Vemetzung und Gruppierung kann we- 
sentlich komplexer sein als in diesem Modell. Ebenfalls konnen Zustande und Daten auch an weitere Module als den 
25 Nachfolgenden ubertragen werden. Es ist moglich, daB Daten an andere Module Ubertragen werden als die Zustande. So- 
wohl Daten als auch Zustande eines bestimmten Moduls konnen von mehreren unterschiedlichen Modulen empfangen 
werden. Inncrhalb einer Gruppe kann 1408, 1409 und 1410 vorhanden sein. Abhangig vom Algorithmus konnen auch 
einzelne Teile fehlen (z. B. 1410 und 1409 vorhanden, 1410 jedoch nicht). 

[0128] In Fig. 15 ist dargestellt wie aus einem Verarbeitungsgraphen Teilapplikationen extrahiert werden. Dabei wird 
30 der Graph so zerlegt, daB lange Graphen sinnvoll zerteilt werden und in Teilapplikationen (H, A, C, K) abgebildet wer- 
den. Nach Spriingen werden neue Teilgraphen gebildet (C, K) wobei fur jeden Sprung ein getrennter Teilgraph gebildet 
wird. 

[0129] Jeder Teilgraph ist in dem ULIW-Modell von der CT (vgl. PACT10) getrennt ladbar. Wesentlich ist, daB Teil- 
graphen durch die Mechanismen in PACT10 verwaltet werden konnen. Dazu gehort insbesondere das intelligente Kon- 
35 figurieren, Ausfuhren/Starten und Loschen der Teilapplikationen. 

[0130] 1503 bewirkt das Laden oder Konfigurieren von Teilapplikation A, wahrend Teilapplikation K ausgefiihrt wird. 
Dadurch ist 

a) Teilapplikation A zum Ausfuhrungsende von Teilapplikation K bereiLs komplett in die PAEs konfiguriert, sofern 
40 die PAEs mehrere Konfigurationsregister aufweisen; 

b) Teilapplikation A zum Ausfuhrungsende von Teilapplikation K bereits in die CT geladen, sofern die PAEs nur 
ein Konfigurationsregister aufweisen. 

[0131] 1504 startet die Ausfuhrung von Teilapplikation K. 
45 [0132] D. h. zur Laufzeit werden die nachsten benotigten Programmteile wahrend der Abarbeitung der aktuellen Pro- 
grammteile unabhangig geladen. Dadurch ergibt sich ein wesentlich effizienterer Umgang mit den Programmcode, als 
bei iiblichen Cache-Mechanismen. 

[0133] Bei Teilapplikationen A wird eine weitere Besonderheit dargestellt. Prinzipiell ware es denkbar beide mogli- 
chen Zweige (C, K) des Vergleiches vorzukonfigurieren. Angenommen, die Zahl der zur Verfugung stehenden freien 

50 Konfigurationsregister reicht dazu nicht aus, wird der wahrscheinlichere der Zweige konfiguriert (1506). Das spart zu- 
dem Konfigurarionszeit. Bei Ausfuhrung des nicht konfigurierten Zweigs, wird (da die Kon figuration noch nicht in die 
Konfigurationsregister geladen ist) die Programmausfuhrung unterbrochen, bis der Zweig konfiguriert ist. 
[0134] Grundsatzlich ist es moglich auch nicht konfigurierte Teilapplikationen auszufuhren (1505), diese mussen dann 
wie zuvor beschrieben vor der Ausfuhrung geladen werden. 

55 [0135] Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen ID angestoBen werden. Damit konnen Tei- 
lapplikationen abhangig vom Zustand des Arrays vorgeladen werden. 

[0136] Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW-Modell, indem es 

1. Das Routing der Daten mit beinhaltet 
60 2. GroBerelnstruktionsworter bildet. 

[0137] Ebenfalls kann das beschriebene Verf ahren der Partitionierung von Compilem fur heutige Standardprozessoren 
nach dem RISC/QSC-Prinzip ebenso eingesetzt werden. Wird dann eine Einheit (CT) nach PACT10 zur Steuerung des 
Befehls-Caches verwendet, kann dieser erheblich optimiert und beschleunigt werden. 
65 [0138] Dazu werden "normale" Programme entsprechend in Teilapplikationen partitioniert. GemaB PACT10 werden 
Verweise auf rnogliche nachfolgende Teilapplikationen eingefuhrt (1501, 1502). Dadurch kann eine CT die Teilapplika- 
tionen bereits in den Cache vorladen bevor sie benotigt werden. Bei Spriingen wird nur die angesprungen Teilapplikation 
ausgefiihrt, die andere (n) werden spater durch neue Teilapplikationen uberschrieben. Neben dem intelligenten Vorladen 
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hat das Verfahren den weiteren Vorteil, daS die GrdBe der Teilapplikationen beim Laden bereits bekannt ist. Dadurch 
konnen optimale Bursts beim Zugriff auf die Speicher von der CT ausgefuhrt werden, was den Speicherzugriff wiederum 
erheblich beschleunigt. 

[0139] Fig. 1 6 zeigt den Aufbau eines Stack-Prozessors. Durch das PAE- Array (1601) werden Protokolle generiert um 
auf einen als LIFO konfigurierten Speicher (1602) zu schreiben oder zu lesen. Dabei wird ein RDY/ACK-ProtokolI zum 5 
Schreiben und REQ/ACK-Protokoli zum Lesen verwendet. Die Vemetzung und Betriebsmodi werden von der CT (1603) 
konfiguriert. 1602 kann dabei seinen Inhalt auf den externen Speicher (1604) auslagern. 

[0140] Eine Reihe der PAEs sollen in diesem Beispiel als Register-Prozessor arbeiten (Fig. 17). Jede PAE besteht aus 
einem Rechenwerk (1701) und einem Akkumulator (1702) auf den das Ergebnis von 1701 riickgekoppelt (1703) ist. Da- 
nut stellt in diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. Eine PAE (1705) liest und schreibt die Daten in 10 
den als Standardspeicher konfigurierten RAM (1704). Eine weitere PAE (1706) generiert die Registeradressen. 
[0141] Oftmals ist es sinnvoll eine getrennt PAE zum Lesen der Daten zu verwenden. Dann wiirde 1705 nur schreiben 
und die PAE 1707 lesen. Dabei wird eine weitere PAE (1708, gestrichelt unterlegt) zum Generieren der Leseadressen ein- 
zufuhren. 

[0142] Es ist nicht zwingend notwendig gctrennte PAEs zum Generieren der Adressen zu verwendet. Oftmals sind die 15 
Register implizit und konnen dann als Konstanten konfiguriert werden von den datenverarbeitenden PAEs gesendet wer- 
den. 

[0143] Die Verwendung von Akkumulator-Prozessoren for einen Register-Prozessor ist beispielshaft. Ebenso konnen 
zum Aufbau von Registerprozessoren PAEs ohne Akkumulator verwendet werden. Die in Fig. 17 gezeigte Architektur 
kann zur Ansteuerung von Registern als auch zum Ansteuern einer Load/Store-Einheit dienen. 20 
[0144] Bei der Verwendung als Load/Store-Einheit ist es fast zwingend notwendig einen externen RAM (1709) nach- 
zuschalten, sodaB 1704 nur einen temporaren Ausschnitt aus 1709, quasi als Cache, darstellt. 

[0145] Auch bei der Verwendung von 1704 als Register-Bank ist es teilweise sinnvoll einen externen Speicher nach- 
zuschalten. Dadurch konnen PUSH/POP Operationen nach dem Stand der Technik durchgefuhrt werden, die den Regi- 
sterinhalt in einen Speicher schreiben oder aus diesem Lesen. 25 
[0146] In Fig. 18 ist als Beispiel eine komplexe Maschine abgebildet bei der das PAE- Array (1801) einerseits einen 
Load/Store-Einheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und gleichzeitig eine Register-Bank (1804) mit 
nachgeschaltetem RAM (1805) aufweist. 1802 und 1804 konnen jeweils von einer PAE oder einer beliebigen Gruppe 
von PAEs angesteuert werden. Die Einheit wird gemaB dem VPU-Prinzip von einer CT (1806) gesteuert. 
[0147] Wichtig ist, daB zwischen der Load/Store-Einheit (1802) und der Register-Bank (1804) und deren Ansteuerung 30 
kein wesentlicher Unterschied besteht. 

[0148] Die Fig. 19, 20, 21 zeigen einen erfindungsgemaBen internen Speicher, der zugleich eine Kommunikationsein- 

heit mit externen Speichem und/oder Peripherie darstellt. Die einzelnen Figuren zeigen unterschiedliche Betriebsarten 

desselben Speichers. Die Betriebsarten, sowie einzelne Detaileinstellungen werden dabei konfiguriert. 

[0149] Fig. 19a zeigt einen erfindungsgemaBen Speicher im "Register/Cache" Modus. Im erfindungsgemaBen Speicher 35 

(1901) sind Datenworte eines fur gewohnlich groBeren und langsameren externen Speichers (1902) abgelegt. 

[0150] Der Datenaustausch zwischen 1901, 1902 und den iiber einen Bus (1903) angeschlossenen PAEs (nicht darge- 

stellt) findet dabei wie folgt statt, wobei unter zwei Betriebsarten unterschieden wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 gelesenen oder gesendeten Daten werden in 1901 mittels eines 40 
Cache- Verfahrens gepuffert. Dabei kann jedes bekannte Cache- Verfahren zum Einsatz kommen. 

B) Mittels einer Load/Store-Einheit werden die Daten bestimmter Adressen zwischen 1902 und 1901 ubertragen. 
Dabei werden bestimmte Adressen, sowohl in 1902 als auch in 1901 vorgegeben, wobei fur 1902 und 1901 gewohn- 
licherweise unterschiedliche Adressen verwendet werden. Die einzelnen Adressen konnen dabei durch Konstante 
oder durch Berechnungen in PAEs erzeugt werden. In dieser Betriebsart arbeitet der Speicher 1901 als Register- 45 
bank. 

[0151] Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei beliebig sein und hangt lediglich von den je- 
weiligen Algorithmen der beiden Betriebsarten ab. 

[0152] In 19b ist die entsprechende Maschine als Blockdiagramm dargestellt. Dem Bus zwischen 1901 und 1902 ist so 
eine Steuereinheit (1904) zugeordnet, die je nach Betriebsart als Load/Store-Einheit (nach dem Stand der Technik) oder 
als Cache-Kontroller (nach den Stand der Technik) agiert. Dieser Einheit kann bei Bedarf eine Speicherverwaltungsein- 
heit (MMU) (1905) mit Adressubersetzung und -uberpriifung zugeordnet werden. Sowohl 1904 als auch 1905 kann von 
den PAEs angesteuert werden. So wird beispielsweise die MMU programmiert, die Load/Store Adressen gesetzt oder ein 
Cache-Rush ausgelost. 55 
[0153] Fig. 20 zeigt den Einsatz des Speichers (2001) i m FIFO-Modus, in welchem nach dem bekannten FIFO-Prinzip 
Datenstrome entkoppelt werden. Der typische Einsatz ist in einem Schreib-(2001a) oder Leseinterface (2001b). Dabei 
werden Daten zwischen den PAEs, die an dem internen Bussystem (2002) angeschlossen sind und dem Peripheriebus 
(2003) zeitlich entkoppelt. 

[0154] Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, die den Schreib- und Lesezeiger des FIFOs abhan- 60 
gig von den Busoperationen von 2003 und 2002 steuert. 

[0155] In Fig. 21 ist das Arbeitsprinzip der erfindungsgemaBen Speicher im Stack-Modus dargestellt. Hn Stack ist 
(nach dem Stand der Technik) ein Stapelspeicher, dessen oberstes/unterstes Element das gerade Aktive ist. Daten werden 
immer oben/unten angefugt, ebenso werden die Daten oben/unten entfernL D. h. das zuletzt geschriebene Datum ist auch 
das, welches zuerst gelesen wird (Last In First Out). Ob ein Stack nach oben oder unten wachst, ist unbedeutend und im- 65 
plementierungsabhangig. Im folgenden Ausfiihrungsbeispiel werden Stacks betrachtet, die nach oben wachsen. 
[0156] Dabei sind die aktuellsten Daten im internen Speicher 2101 gehalten, der aktuellste Eintrag (2107) befindet sich 
ganz oben in 2101. Alte Eintrage sind auf den externen Speicher 2102 ausgelagert. Wachst der Stack weiter, reicht der 
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Platz im intemen Speicher 2101 nicht mehr aus. Bei Erreichen einer bestimmten Datenraenge, die durch eine (frei wahl- 
bare) Adresse in 2101 oder einen (frei wahlbaren) Wert in einem Eintragszahler reprasentiert sein kann, wird ein Teil von 
2101 als Block an das akluellere Ende (2103) des Stacks in 2102 geschrieben. Dieser Teil sind die alteslen und somit ain 
wenigsten aktueilen Daten (2104). Danach werden die verbleibenden Daten in 2101 so verschoben, daB die nach 2102 
5 kopierten Daten in 2101 mil den verbleibenden Daten (2105) uberschrieben werden und somit geniigcnd frcier Speicher 
(2106) fur neue Stackeintrage entsteht. 

[0157] Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) Punkt die Daten in 2101 so verschoben, daB 
hinter den altesten und unaktuellsten Daten freier Speicher entsteht. In den freigewordenen Speicher wird ein Speicher- 
block aus 2102 kopiert, der dann in 2102 geloscht wird. 

10 [0158] Mit anderen Worten reprasentieren 2101 und 2102 einen einzigen Stack, wobei die gerade aktueilen Eintrage in 
2101 liegen und die alteren und weniger aktueilen in 2102 ausgelagert sind. Quasi stellt das Verfahren einen Cache fur 
Stacks dar. Da die Datenblocke vorzugsweise per Blockoperationen ubertragen werden, kann der Datcntransfer zwischen 
2101 und 2102 in den schnellen Burst-Betriebsarten modemer Speicher (SDRAM, RAMBUS, etc.) ausgefuhrt werden. 
[0159] Es soil nochmals erwahnt werden, daB im Ausfuhmngsbeispiel in Fig. 21 der Stack nach oben wachst. Sollte 

15 der Stack nach unten wachsen (eine hauflg verwendete Melhode), sind die Positionen oben/unten und die Richtungen in 
die die Daten innerhalb eines Speichers bewegt werden genau vertauscht. 

[0160] Sinnvollerweise wird der interne Stack 2101 als eine Art Ringspeicher ausgestaltet. Die Daten an einem Ende 
des Ringes werden zwischen PAEs und 2101 ubertragen und am anderen Ende des Ringes zwischen 2101 und 2102. Da- 
durch entsteht der Vorteil, daB einfach Daten zwischen 2010 und 2102 verschoben werden konnen, ohne EinfluB auf die 

20 intcrnen Adressen in 2101 zu haben. Lediglich die Positionszeiger der unteren und oberen Daten und der Fullstandszah- 
ler mussen jeweils angepaBt werden. Die Datenubertragung zwischen 2101 und 2102 kann durch die bekannten Ring- 
speicher-Flags "beinahe voll (almost full)/ voll (full)" und "beinahe leer (almost empty )/leer (empty)" ausgelost werden. 
[0161] Die notwendige Hardware ist als Biockschaltbild in Fig. 21b dargestellt. Dem intemen Stack 2101 ist eine Ein- 
heit (2110) zur Verwaltung der Zeiger und Zahler zugeordnet. In den Bus (2114) zwischen 2101 und 2102 ist eine Einheit 

25 (2111) zur Steuerung der Datentransfers eingeschleift. Dieser Einheit kann eine MMU (2112) nach dem Stand der Tech- 
nik mit den entsprechenden Prufsystemen und Adressiibersetzungen zugeordnet werden. 
[0162] Die Verbindung zwischen den PAEs und 2101 wird uber das Bussystem 2113 realisiert. 
[0163] In Fig. 22 ist ein Beispiel fiir das Umsortieren von Graphen gezeigt. Die linke Spalte (22. .a) zeigt eine unopti- 
mierte Anordnung von Befehlen. Dabei werden die Pointer A (2207a) und B (2211a) geladen. Jeweils bereits einen Takt 

30 spater werden die Werte der Pointer benotigt (2208a, 2212a). Diese Abhangigkeit ist zu kurz urn effizient ausgefuhrt zu 
werden, da zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) benotigt wird. Durch umsortieren der Be- 
fehle (22. .b) werden die Zeitraume maximal vergroBert (2220b, 2221b). Obwohl in 2210 und in 2208 der Wert des Poin- 
ters von A benotigt wird, wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur Berechnung von B gewonnen wird. 
Es ist moglich Berechnungen die von den Pointern unabhangig sind (2203, 2204, 2206) beispielsweise zwischen 2211 

35 und 2212 einzufugen um mehr Zeit fiir die Speicherzugriffe zu erhalten. Ein Compiler oder Assembler kann hier anhand 
von Systemparametem, die die Zugriffzeiten reprasentieren, die entsprechende Optimierung vornehmen. 
[0164] Fig. 23 zeigt einen Sonderfall der Fig. 4-7. Haufig besteht ein Algorilhmus, auch innerhalb von Schleifen, aus 
DatenfluBteilen und sequentiellen Teilen. Derartige Strukturen konnen gemaB dem beschriebenen Verfahren unter Ein- 
satz des in PAC1X)7 beschriebenen Bussystems effizient aufgebaut werden. Hierzu wird das RDY/ACK-Protokoll des 

40 Bussystems zunachst um das erfindungsgemaBe REQ/ACK-Protokoll erweitert. Dadurch konnen gezielt Registerinhalte 
einzelner PAEs von einer oder mehreren anderen PAEs oder von der CT abgefragt werden. Eine Schleife (2305) wird nun 
in mindestens zwei Graphen zerlegt, einen ersten (2301), der den DatenfluBanteil reprasentiert und einen zweiten (2302), 
der den sequentiellen Anteil abbildet. 

[0165] Ein bedingter Sprung wahlt zwischen den beiden Graphen. Das besondere ist nun, daB 2302 den internen Zu- 
45 stand von 2301 kennen zur Ausfuhrung benotigt und umgekehrt 2301 den Zustand von 2302 kennen muB. 

[0166] Dies wird realisiert, indem der Zustand genau einmal, namlich in den Registern der PAEs des performanteren 
DatenfluBgraphen (2301) gespeichert wird. 

[0167] Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die Zustande der jeweiligen Register mittels des Bus- 
systems aus PACT07 aus (2303). Der Sequenzer fiihrt seine Operationen aus und schreibt alle geanderten Zustande in die 

50 Register (wiederum uber das Bussystem nach PACT07) zuriick (2304). AbschlieBend soil angemerkt werden, daB es sich 
bei den besprochenen Graphen nicht unbedingt um enge Schleifen (2305) handeln muB. Das Verfahren ist generell auf je- 
den Teilalgorithmus verwendbar, der innerhalb eines Programmablaufes mehrfach ausgefuhrt wird (reentrant) und wahl- 
weise entweder sequentiell oder parallel (datenfluBartig) abgearbeitet wird, wobei die Zustande zwischen dem sequen- 
tiellen und dem parallelen Teil transferiert werden mussen. 

55 [0168] Die Waverekonfigurierung bietet erhebliche Vorteile bei der Geschwindigkeit der Umkonfiguration, insbeson- 
dere bei einfachen sequentiellen Operationen. 

[0169] Eine grundlegende Besonderheit dieser Verarbeitungsmethode ist, daB der Sequenzer auch als externen Mikro- 
prozessor ausgestaltet sein kann. Das bedeutet, daB ein Prozessor uber die Datenkanale mit dem Array verbunden ist und 
lokale, temporare Daten uber Bussysteme nut dem Array austauscht. Samtliche sequentielle Teile eines Algorithinus die 
60 nicht in das Array aus PAEs abgebildet werden konnen werden auf dem Prozessor abgewickelt. 
[0170] Es muB zwischen drei Bussystemem unterschieden werden: 

1. Datenbus, der den Austausch der verarbeiteden Daten zwischen VPU und Prozessor regelt. 

2. Registerbus, der den Zugriff auf die Register der VPU ermoglicht und den somit den Datenaustausch (2302, 
65 2304) zwischen 2302 und 2301 gewahrieistet. 

3. Konflgurationsdatenbus, der das Array der VPU konfiguriert. 

[0171] In Fig. 24 sind die Auswirkungen zeitlich dargestellt 



14 



DE 100 28 397 A 1 



[0172] Einfach schraffierte Flachen stellen datenverarbeitende PAEs dar, wobei 2401 PAEs nach der Umkonfiguration 
und 2403 PAEs vor der Umkonfiguration zeigen. Doppelt schraffierte Flachen (2402) zeigen PAEs die gerade umkonfi- 
guriert werden oder auf die Unikonfiguralion warten. 

[0173] Fig. 24a zeigt den Einflufi der Wave-Rekonfigurierung auf einen einfachen sequentietlen Algorithmus. Hier ist 

es mogliche cxakt die PAEs umzukonfiguriercn, denen eine neue Aufgabc zugeteilt wird. Da in jedem Takt eine PAE cine 5 

neue Aufgabe erhalt kann dies effizient, namlich zeitgleich durchgefuhrt werden. 

[0174] Beispielsweise dargestellt ist eine Reihe von PAEs aus der Matrix aller PAEs einer VPU. Angegeben sind die 
Zustande in den Takten nach l^kt t mit jeweils einem Takt Verzogerung. 

[0175] In Fig. 24b ist die zeitliche Auswirkung der Umkonfiguration von groBen Teilen dargestellt. Beispielsweise dar- 
gestellt ist eine Menge von PAEs einer VPU. Angegeben sind die Zustande in den Takten nach Takt I mit einer unter- 10 
schiedlichen Verzogerung von jeweils mehreren Takten. 

[0176] Wahrend zunachst nur ein kleiner Teil der PAEs umkonfiguriert wird oder auf die Umkonfiguration wartet, wird 
diese Flache mit zunehmender Zeit groBer, bis alle PAEs umkonfiguriert sind. Das groBer werden der Flache bedeutet, 
daB, bedingt durch die zeitliche Verzogerung der Umkonfiguration immer mehr PAEs auf die Umkonfiguration warten 
(2402). Dadurch geht Rechenleistung verloren. 15 
[0177] Es wird daher vorgeschlagen ein breiteres Bussystem zwischen der CT (insbesondere des Speichers der CT) 
und den PAEs einzusetzen, das geniigend Leitungen zur Verfugung stellt, urn innerhalb eines Taktes mehrere PAEs zu- 
gleich umzukonfigurieren. 

[0178] Fig. 25 verdeutlicht die Skalierbarkeit der VPU-Technologie. Die S kalierbarkeit geht im Wesentlichen aus dem 
Ausrollen eines Graphcns hervor, ohne daB eine zeitliche Abfolge einzelne Teilapplikationen trennt. Als Beispiel ist der 20 
Algorithmus aus Fig. 4 gewahlt. In Fig. 25a werden die einzelnen Teilgraphen zeitlich nacheinander auf die VPU uber- 
tragen, wobei entweder Bl oder B2 geladen wird. In Fig. 25b werden alle Teilgraphen auf eine Menge von VPUs iiber- 
tragen und mit Bussystemen untereinander verbunden. Dadurch konnen groBe Datenmengen ohne den negativen EinfluB 
des Umkonfigurierens leistungsfahig abgearbeitet werden. 

[0179] Fig. 26 zeigt eine Schaltung zur Beschleunigung der (Urn-) konfigurationszeit von PAEs. Gleichzeitig kann die 25 
Schaltung zur Verarbeitung von sequentiellen Algorithmen verwendet werden. Das Array von PAEs (2605) ist in meh- 
rere Tcile (2603) partitioniert. Jedem Teil ist eine eigenstandige Einheit zur (Um-)konfiguration (2602) zugeordnet. Die- 
sen Einheiten iibergeordnet ist eine CT (2601) nach dem Stand der Technik (vgl. PACT10), die wiederum an eine weitere 
CT oder an einen Speicher angeschlossen ist (2604). Die CT lad die Algorithmen in die Konfigurationseinheiten (2602). 
Die 2602 laden selbstandig die Konfigurationsdaten in die ihnen zugeordneten PAEs. 30 
[0180] In Fig. 27 ist ein Aufbau einer Konfigurationseinheit dargestellt. Kem der Einheit ist ein Sequenzer (2701) der 
eine Reihe von Befehlen beherrscht. 
[0181] Die wesentlichen Befehle sind: 

wait <trg#> Warten auf das Eintreffen eines bestimmten Triggers aus dem Array, der angibt, welche nachste Konfigura- 
tion geladen werden soil. 35 
lookup <trg#> Gibt die Adresse des durch einen eintreffenden Trigger aufgerufenen Unterprogramms zuriick. 
jmp <adr> Sprung nach Adresse 

call <adr> Sprung nach Adresse. Rucksprungadresse wird auf dem Stack gespeichert 
jmp <cond> <adr> Bedingter Sprung nach Adresse 

call <cond> <adr> Bedingter Sprung nach Adresse. Rucksprungadresse wird auf dem Stack gespeichert 40 
ret Riicksprung auf die auf dem Stack gespeicherte Rucksprungadresse 

mov <target> <source> Ubertragt ein Datenwort von Quelle (source) an cin Ziel (target). Quelle und Ziel konnen jeweils 
in einem Speicher oder eine Peripherieadresse sein. 

[0182] Im wesentlichen sind die Befehle aus PACT10, d. h. der Beschreibung der CT bekannt. Wesentlicher Unter- 
schied in der Implementierung der 2602 ist, daB nur sehr einfache Befehle zur Datenverwaltung verwendet werden und 45 
kein vollstandiger Mikrokontroller verwendet wird. 

[0183] Eine bedeutende Erweiterung des Befehlssatzes ist der "pabin'-Befehl zum Konfigurieren der PAEs. Es stehen 
zwei Befehle (pabmr, pabmm) zur Verfugung, die folgendermassen aufgebaut sind: 
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pa_adr 0 


pa_dta 0 
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count 




offset 
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[0184] Die Befehle kopieren einen zugeordneten Block von PAE-Adressen und PAE-Daten vom Speicher zu dem 
PAE- Array. Durch <count> ist angegeben, wie groB der zu kopierende Datenblock ist. Der Datenblock ist. entweder di- 
rekt an den Opcode angehangt (a) oder durch Angabe der erste Speicheradresse <memref> referenziert (b). 
[0185] Jede pa_adr n -pa_dta n -Zeile stellt eine Konfiguration fur eine PAE dar. Dabei gibt pa_adr n , die Adresse und 
pa_dta n das Konfigurationswort der PAE an. 

[0186] Aus PACT10 ist das RDY/ACK-REJ Protokoll bekannt. Werden die Konfigurationsdaten von einer PAE ange- 
nommen, quittiert die PAE die gesendeten Daten mit einem ACK. Kann dagegen eine PAE die Konfigurationsdaten nicht 
annehmen, da sie sich nicht in einem umkonfigurierbaren Zustand befindet, sendet sie ein REJ zuriick. Dadurch schlagt 
die Konfiguration des Teilalgorithmus fehl. 

[0187] Die Stelle rait REJ zuriickgewiesenen pa_adr D -pa_dta n -Zeile wird gespeichert. Die Befehle werden zu einem 
spateren Zeitpunkt emeut aufgerufen (vgl. PACT10, FILMO). Sofern der Befehl komplett abgearbeitet wurde, d. h. es 
trat kein REJ auf, fuhrt der Befehl keine weitere Konfiguration durch sondern terrniniert sofort. Trat ein REJ auf, springt 
der Befehl direkt an die Stelle der zuriickgewiesenen pa_adr n -pa_dta n -Zeile. Je nach Befehl wird die Stelle unterschied- 
lich gespeichert: 

pabmr: Die Adresse wird in dem mit <regno> genannten Register gespeichert. 
pabmm: Die Adresse wird direkt im Befehl an der Speicherstelle <offset> gepeichert 

[0188] Die Befehle sind durch DMA-Strukturen als Speicher/IO-'IYansfers nach dem Stand der Technik implemenlier- 
bar. Die DMAs werden durch eine Logik zum uberwachen der eingehenden ACK/REJ erweitert Die Startadresse wird 
durch <regno>, bzw. <offset> bestimmt. Die letztc Adresse des Datenblocks wird durch die Adresse des Befehls plus 
dessen Opcode-Lange minus eins plus die Anzahl der pa_adr Q -pa_dta n -Zeilen berechnet. 
[0189] Es ist sinnvoll auch die in PACT10 beschriebene Schaltung durch die genannten Befehle zu erweitem. 
[0190] Fig. 27 zeigt den Aufbau einer Einheit 2602. Die Einheit besteht aus einem Registersatz 2701 dem eine einfache 
ALU fur Stackoperationen zugeordnet ist (2702). Die Struktur enthalt Adressregister und Stackpointer. Optional kann 
eine vollwertige ALU eingesetzt werden. Ein Bussystem (2703) mit minimaler Breite verbindet Register und ALU. Die 
Breite ist dabei so bemessen, daB einfache KontrollfluBbefehle bzw. einfache ALU-Operationen sinnvoll dargestellt wer- 
den konnen. 5Uisatzlich werden die vorab beschriebenen PABM-Befehle, sowie die Befehle nach PACT10 unterstiitzt. 
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Register und ALU werden von einem Sequenzer 2706 gesteuert, der durch Ausfuhrung von Befehlen einen vollstandigen 
Microcontroller darstellt. An 2703 ist eine Einheit 2704 angeschlossen, die Trigger von den zugeordneten PAEs entge- 
genninnnt und quilliert und gegebenenfalls ihrerseils Trigger an die PAEs sendet. 

[0191] Eingehende Trigger losen dabei in dem Sequenzer 2706 einen Interrupt aus oder werden durch den WAIT-Be- 
fehl abgcfragt. Optional an 2703 angeschlossen ist. ein Interface (2705) zu cinem Datenbus der zugeordneten PAEs urn 5 
Daten an die PAEs senden zu konnen. Beispielsweise werden die Assemblercodes eines in den PAEs implementierten 
Sequenzers iiber 2705 gesendet. Das Interface enthalt sofern erforderbch einen Konverter zur Anpassung der unter- 
schiedlichen Busbreiten. Die Einheiten 2701 bis 2706 sind uber einen Multiplexer/Demultiplexer (2707) an ein urn ein 
Vielfaches breiteres Bussystem (2708) angeschlossen, das zum Speicher (2709) fuhrt. 2707 wird von den niederwertigen 
Adressen des Adress-/Stackregisters angesteuert, die hoherwertigen Adressen fuhren direkt zum RAM (2711). Das Bus- 10 
system 2708 fuhrt zu einem Interface (2709), das durch die PA-Befehle gesteuert wird und zum Konfigurationsbus der 
PAEs fuhrt. 2708 ist bewuBtbreit ausgelcgt urn moglichst vicle Konfigurationsbits prolakteinheit iiber 2709 an die PAEs 
senden zu konnen. Ein weiteres Interface (2710) verbindet den Bus mit einer ubergeordneten CT, die Konfigurations- 
und Steuerdaten mit 2602 austauscht. Die Interface 2710 und 2709 bereits mehrfach in PACT 10, PACT?? beschrieben 
worden. 15 
[0192] Wesentlich ist, daB 2706 einen reduzierten und auf die Aufgabe optimierten Minimalsbefehlssatz beherrscht, 
der vor allem auf die PA-Kommandos, Sprunge, Interrupts und Lookup- Befehle optimiert ist Weiterhin ist das opti- 
niierte breile Bussystem 2708, das iiber 2707 auf ein schmales Bussystem ubertragen wird von besonderer Bedeutung fiir 
die Umkonfigurationsgeschwindigkeit der Einheit. 

[0193] Fig, 27a ist eine spezielle Ausgestaltung von Fig. 27. Das Interface 2705 dient der Ubertragung von Assemb- 20 
lercodes an im PAE- Array konfigurierte Sequenzer. Die Verarbeitungsleistung der Sequenzer hangt wesentlich von der 
Geschwindigkeit des Interfaces 2705 und dessen Speicherzugriffes ab. In Fig. 27a ist. 2705 durch eine DMA-Funktion 
mit direktem Speicherzugriff (2720J ersetzt. 2720„ fiihrt eigene Speicherzugriffe aus und besitzt ein eigenes Bussystem 
(2722 n ) mit entsprechender Anpassung der Busbreite (2721 n ); dabei kann der Bus zum Laden von breiten Befehlsse- 
quenzen (ULIW) verhaltnismaBig breit ausfallen, sodaB als Grenzfall 2721 n komplett entfallt. Zur weiteren Steigerung 25 
der Geschwindigkeit ist der Speicher 2711 physikalisch in 2711a und 2711b n getrennt worden. Der Adressraum uber 
2711a und 2711b„ verbleibt linear, jedoch kann von 2701, 2702, 2706 auf bcide Spcicherblocke unabhangig gleichzeitig 
zugegriffen werden; 2720 D kann nur auf 2711b n zugreifen. 2720 n , 2721 n , und 2711b n kann mehrfach (n) implementiert 
sein, damit mehrere Sequenzer gleichzeitig verwaltet werden konnen. Dazu kann 2711b n nochmal in mehrere physika- 
lisch unabhangige Speicherbereiche unterteilt werden. In Fig. 38 ist sind Implementierungsbeispiele fiir 2720 n beschrie- 30 
ben. 

[0194] In Fig. 28 wird der Aufbau von komplexen Programmen vcrdcutlicht. Die Basismodule der Programme sind die 
Komplex-Konfigurationen (2801) die die Konfigurationen einer oder mehrere PAEs und der dazugehorenden Bus- und 
Triggerkonfigurationen beinhalten. Die 2801 werden durch einen Opcode (2802) reprasentiert, der zusatzliche Parameter 
(2803) besitzen kann. Diese Parameter konnen einerseits konstante Datenwerte, variable Startwerte oder auch spezielle 35 
Konfigurationen beinhalten. Es existieren je nach Funktion ein, mehrere oder auch kein Parameter. 
[0195] Mehrere Opcodes greifen auf einen gemeinsamen Satz von Komplex-Konfigurationen zuriick und bilden damit 
eine Opcode-Gruppe (2805). Die unterschiedlichen Opcodes einer Gruppe unterscheiden sich durch besondere Ausge- 
staltungen der Komplex-Konfigurationen. Dazu werden DifFerenzicrungen (2807) verwendet, die entweder zusatzliche 
Konfigurationsworte enthalten, oder in 2801 vorkommende Konfigurationsworte uberschreiben. 40 
[0196] Eine Komplex-Konfiguration wird, sofern keine Differenzierung erforderlich ist, direkt von einem Opcode auf- 
gerufen (2806). Ein Programm (2804) setzt sich aus einer Abfolge von Opcodes mit den jeweiligen Parametern zusam- 
men. 

10197] Eine komplexe Funktion kann einmal in das Array geladen werden und kann danach durch unterschiedliche Pa- 
rameter oder Differenzierungen neu umkonfiguriert werden. Dabei werden nur die sich andernden Teile der Konfigura- 45 
tion umkonfiguriert. Unterschiedliche Opcode-Gruppen greifen auf unterschiedliche Komplex-Konfigurationen zuriick. 
(2805a,... ,2805n). 

[0198] Die unterschiedlichen Ebenen (Komplex-Konfiguration, Differenzierung, Opcode, Programm) werden in ver- 
schiedenen Ebenen von CTs abgearbeitet (vgl. CT Hierarchien in PACT10). Die unterschiedlichen Ebenen sind in 2810 
dargestellt, wobei 1 die niederste und N die hochste Ebene darstellt. CIs konnen zu beliebig tiefen Hierarchien aufgebaut 50 
werden (vgl. PACT10). 

[0199] Es wird in 2801 unter zwei Arten von Codes unterschieden: 

1 . Konfigurationsworte, die einen Algorithmus auf das Array aus PAEs abbilden. Der Algorithmus kann dabei auch 

als Sequenzer ausgestaltet sein. Die Konfiguration erfolgt iiber die Schnittstelle 2709. Konfigurationsworte werden 55 
durch die Hardware definiert. 

2. Algorithmusspezifische Codes, die von der moglichen Ausgestaltung eines Sequenzer oder Algorithmus abhan- 
gig sind. Diese Codes werden vom Programmierer oder Compiler definiert und dienen zur Ansteuerung eines Algo- 
rithmus. Ist beispielsweise ein Z80 als Sequenzer in die PAEs konfiguriert, stelien diese Codes den Opcode des Z80 
Mikroprozessors dar. Algorithmusspezifische Codes werden uber 2705 an das Array aus PAEs gesendet. 60 

[0200] In Fig. 29 ist ein moglicher Grundaufbau einer PAE dargestellt. 2901 bzw. 2902 stelien die Eingangs- bzw. Aus- 
gangsregister der Daten dar. Den Registern zugeordnet ist die komplette Vernetzungslogik zum Aufschalten auf den/die 
Datenbusse (2920, 2921) des Arrays (vgl PACT02). Die TViggerleitungen gem. PACT08 werden durch 2903 vom Trig- 
gerbus (2922) abgegriffen und mit 2904 auf den Triggerbus (2923) aufgeschaltet. Zwischen 2901 und 2902 ist eine ALU 65 
(2905) beliebiger Ausgestaltung geschaltet. Den Datenbussen (2906, 2907) und der ALU zugeordnet ist ein Registersatz 
(2915), in welchem lokale Daten gespeichert werden. Die RDY/ACK-Syncronisationssignale der Datenbusse und TYig- 
gerbusse werden zu einer Statemachine (oder einem Sequenzer) (2910) gefuhrt (2908), bzw. von der Einheit generiert 
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(2909). 

102011 Uber eine Interfaceeinheit (2911) greift die CT mittels eines Bussystemes (2912) selektiv auf eine Mehrzahl 
von Konfigurationsregistern (2913) zu. 2910 wahlt iiber einen Multiplexer (2914) jeweils eine bestinunte Konfiguration 
aus, oder sequenzt uber eine Mehrzahl von Konfigurationsworten, die dann Befehle fur den Sequenzer darstellen. 
5 [0202) Da die VPU-Technologie hauptsachlich gcpipelinct arbeitct ist cs von Vorteil cntweder die Gruppe 2901 und 
2903 oder die Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs zu versehen. Dadurch kann verhindert 
werden, daB eine Pipeline durch einfache Verzogerungen (z. B. in der Synchronisation) stockt. 

[0203] 2920 ist ein optionaler Buszugang, uber den ein der Speicher einer CT (siehe Fig. 27, 2720) oder ein gewohni- 
cher intemer Speicher an Stelle der Konfigurationsregister an den Sequenzer 2910 geschaltet werden kann. Damit sind 
10 groBe sequentielle Programme in einer PAE ausfiihrbar. Der Multiplexer 2914 wird dazu so geschaltet, daB er nur den in- 
ternen Speicher verbindet. 
[0204] Die Adressen werden 

a) fur den CT-Speicher durch die Schaltung in Figur. 38 generiert. 
15 b) fur den intemen Speicher direkt von 2910 generiert. 

102051 Fig. 30 zeigt eine mogliche Erweiterung der PAE urn der CT oder einem anderen zuegschalteten Mikroprozes- 
sor einen Zugriff auf die Datenregister zu ermoglichen. Der Adressraum und die Interface der Buseinheit (vormals 2911, 
3003) werden um die zusatzlichen Datenbusse (3001) erweitert. Den jeweiligen Registern wird ein Multiplexer (3002) 
20 vorgcschaltct mittles dem 3003 iiber den Bus 3001 Daten in das Register schreiben kann. Die Ausgange der Register 
werden uber 3001 zuruck an 3003 gefiihrt. 3003 ubertragt die Daten zur CT 2912. 

10206] Alternativ (3003a) zur Ubertragung der Daten zu CT ist es moglich die Daten durch ein zusatzliches Interface 
(3004) auf einen von der CT unabhangigen Bus (3005) zu ubertragen. 

[0207] Fig. 31 zeigt die Kopplung des Arrays von PAEs (3101) mit einem ubergeordneten Mikrokontroller. 3101 be- 
25 inhaltet sind samtliche IOKanale gemaB den erfindungsgemaBen Speichem. Die Architektur arbeitet gemaB Fig. 23. 
2912 in Fig. 31a stellt den Bus fur die Konfigurationsdaten und Registerdaten gem. Fig. 30 zur Verfugung. Der Datenbus 
wird separat durch 3104 dargestellt. 3102 stellt die CT dar, die in Fig. 31a auch den Mikroprozessor darstellt. 
[0208] Fur samtliche Bussysteme bestehen unabhangig voneinander folgende AnschluBmodelle an einen Prozessor, 
die je nach Prograrnmiermodell und unter Abwagung von Preis und Performance gewahlt werden: 

30 

1 . Register-Modell 

[0209] Beim Register-Modell wird der jeweilige Bus iiber ein Register angesprochen, das direkt in den Registersatz 
des Prozessors integriert ist und vom Assembler als Register oder Gruppe von Registern angesprochen wird. Dieses Mo- 
35 deli ist am effizientestens wenn einige wenige Register fur den Datenaustausch ausreichen. 

2. IO-Modell 

[0210] Der jeweilige Bus liegt im lOBereich des Prozessors. Dies ist meistens die einfachste und kostengiinstigste Va- 
40 riante. 

3. Shared-Memory-Modell 
4. Shared-Memory-DMA-Modell 

45 

[0211] Prozessor und Bus teilen sich wie im vorigen Model! denselben Speicher. Zur weiteren Geschwindigkeitsstei- 
gerung existiert eine schnelle DMA (vgl. Fig. 38) die den Datenaustausch zwischen Bus und Speicher ubernimmt. 
[0212] Zur Steigerung der Ubertragungszeit sollten die jeweiligen Speicher physikalisch vom ubrigen Speicher trenn- 
bar sein (mehrere Speicherbanke), damit Prozessor und VPU unabhangig auf ihre Speicher zugreifen konnen. 
50 [0213] In Fig. 3 lb ubernimmt eine CT (3102) die Konfiguration des Arrays, wahrend ein dedizierter Prozessor (3103) 
iiber 3006 das Prograrnmiermodell nach Fig. 23 gewahrleistet, indem er uber 3006 Registerdaten mit dem Array aus- 
tauschl und uber 3104 die gewohnlichen Daten austauscht. 

[0214] Die Fig. 31c/d entsprechen den Fig. 31a/b, jedoch wurde fur den Datenaustausch ein Shared-Memory (3105) 
zwischen dem jeweiligen Prozessor und 3101 gewahlt 

55 [0215] Fig. 32 zeigt eine Schaltung die es den erfindungsgemaBen Speicherelementen ermoglicht gemeinsam auf einen 
Speicher oder eine Gruppe von Speichem zuzugreifen, wobei jeder einzelne Speicher der Gruppe einzeln und eindeutig 
adressierbar ist. Dazu werden die einzelnen Speicherelemente (3201) auf ein Bussystem geschaltet, bei dem jedes 3201 
einen eigenen Bus besitzt. Der Bus kann bidirektional augestaltet sein oder durch zwei unidirektionale Busse realisiert 
werden. Pro Speicher existiert ein Adress/Datenmultiplexer, der einen Bus zum Speicher durchschaltet Dazu werden die 

60 anliegenden Adressen jedes Busses dekodiert (3207) und danach jeweils ein Bus pro Zeiteinheit durch einen Arbiter 
(3208) ausgewahlt (3204). Die entsprechenden Daten und Adressen werden auf den jeweiligen Speicherbus (3205a) 
ubertragen, wobei eine Zustandsmaschine (3206) die notwendigen Protokolle generiert. TYeffen bei einer Leseanforde- 
rung die Daten vom Speicher ein, wird durch die jeweilige Zustandsmaschine die Adresse des Speichers auf den Bus ge- 
schaltet, der die Daten anfragte. Die Adressen aller eingehenden Busse werden pro Bus des Bussystems 3202 durch eine 

65 Multiplexereinheit ausgewertet und auf den entsprechenden Bus ubertragen. Die Auswertung erfolgt entsprechend der 
Auswertung der Ausgangsdaten, d. h. ein Dekoder (3209) je Eingangsbus (3205b) leitet ein Signal auf einen Arbiter 
(3210), der den Daten-Multiplexer ansteuert. Damit werden pro Zeiteinheit unterschiedliche Eingangsbusse auf das Bus- 
system 3202 geleitet. 
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[0216] In Fig. 33 wird zur flexibleren und einfacheren Auswertung der THgger- und RDY/ACK-Signale die starre Sta- 
temachine / der starre Sequenzer 2910 durch einen frei programmierbaren (3301) ersetzt. Die vollstandige Funklion von 
3301 wird durch die Konfigurationsregister 2913 vor der Ausfuhrung von Algorithmen durch die CT bestiimnt. Das La- 
den von 3301 wird durch ein gegenuber 2911 urn die Verwaltung von 3301 erweitertes CT-Interface (3302) gesteuert. 
Der Vorteil von 3301 liegt darin, daB erheblich flcxibler mil den unterschiedlichen Trigger- und RDY/ACK-Signalen urn- 5 
gegangen werden kann, als in fest implementierten 2910. Nachteilhaft wirkt sich die GroBe eines von 3301 aus. 
[02171 Ein KompromiB der zu der hochsten Flexibility bei vertretbarer GroBe fiihrt ist, die Trigger und RDY/ACK-Si- 
gnale durch eine Einheit gemaB 3301 auszuwerten und samtliche festen Ablaufe innerhalb der PAE durch eine fest im- 
plementierte Einheit nach 2910 zu steuern. 

[0218] Die erfindungsgemaBe PAE zur Verarbeitung von Iogischen Funktionen ist in Fig. 34 abgebildet. Kern der Ein- 10 
heit ist eine nachfolgend detaiilierter beschriebene Einheit zum verknupfen von einzelnen Signalen (3401). Tiber die ub- 
lichen Register 2901, 2902, 2903, 2904 werden die Bussignale mit 3401 verbunden. Die Register werden hierzu um ei- 
nen Feed-Mode erweitert, der einzelne Signale selektiv ohne sie taktsynchron zu speichern (register) zwischen den Bus- 
sen und 3401 austauscht. Der Multiplexer (3402) und die Konfigurationsregister (3403) werden an die unterschiedlichen 
Konfigurationen von 3401 angepaBt. Ebenso ist das CT-Interface (3404) entsprechend ausgestaltet. 15 
[0219] Fig, 35 zeigt mogliche Ausgestaltungen von 3401. Ein globaler Datenbus verbindet die Logikzellen 3501 und 
3502 mit den Registern 2901, 2902, 2903, 2904. Durch Busschalter, die als Multiplexer, Gatter, Transmissiongates oder 
einfachen Transistoren ausgelegt sein konnen wird 3504 init den Logikzellen verbunden. Die Logikzellen konnen entwe- 
der komplett einheitlich gestaltet sein, oder unterschiedliche Funktionalitat besitzen (3501, 3502). 3503 stellt einen 
RAM-Speicher dan 20 
[0220] Mogliche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 

- Multiplexer 25 

- Register 

[0221] Die Auswahl der Funktionen und Vemetzung kann entweder flexibel prograrnmierbar durch SRAM-Zellen er- 
folgen oder mittels unveranderlicher ROM oder semistatischer FlashROM Speicher. 

[0222] Zur Beschleunigung von sequentiellen Algorithmen, die schlecht parallelisiert werden konnen ist bei herkomm- 30 
lichen Prozessoren spekulative Ausfuhrung bereits Stand der Technik. Die parallele Variante fiir VPUs ist in Fig. 36 dar- 
gestellt. Die Operanden (3601) werden gleichzeitig an mehrere moglichen Pfade von Teilalgorithmen (3602a, 3602b, 
3602c) gefuhrt. Die Teilagorithmen konnen dabei einen unterschiedlichen Flachen- und Zeitbedarf aufweisen. Jeweils 
nach den Teilalgorithmen werden die Daten erfindungsgemaB gespeichert (3612a, 3612b, 3612c), bevor sie nach einer 
Umkonfigurauon von den nachsten Teilalgorithmen verarbeitet werden (3603). Auch die Umkonfigurationszeitpunkte 35 
der einzelnen Teilalgorithmen sind voneinander unabhangig, ebenso die Zahl der Teilalgorithmen selbst (3603, 3614). 
Sobald enlscheidbar ist, welcher der Pfade zu wahlen ist, werden die Pfade uber einen Bus oder Multiplexer zusammen- 
gefiihrt (3605). Von einer Bedingung generierte Triggersignale (vgl. PACT08) (3606) bestimmen welcher der Pfade ge- 
wahlt und an die nachfolgenden Algorithmen weitergeleitet wird. 

[0223] Fig. 37 zeigt den Aufbau eines Hochsprachencompilers, der gewohnliche sequentielle Hochsprachen (C, Pas- 40 
cal, Java) auf ein VPU-System iibersetzt. Sequentieller Code (3711) wird von parallelem Code (3708) getrennt, wodurch 
3708 direkt in dem Array von PAEs verarbeitet wird. 
[0224] Fiir 3711 gibt es drei Ausfuhrungsmoglichkeiten: 

1 . Innerhalb eines Sequenzers einer PAE (2910) 45 

2. Mittels eines in die VPU konfigurierten Sequenzers. Der Compiler erzeugt hierzu einerseits einen auf die Auf- 
gabe optimierten Sequenzer, andererseits direkt den algorithmenspezifischen Sequenzercode (vgl. 2801). 

3. Auf einem gewohnlichen externen Prozessor (3103) Welche Moglichkeit gewahit wird hangt von der Architek- 
tur der VPU, des Computersystems und des Algorithmus ab. 

50 

[0225] Der Code (3701) wird zunachst in einem Praprozessor (3702) in DatenfluBcode (3716) (der in einer spezieHen 
Version der jeweiligen Programmiersprache daten fluBoptiiniert geschrieben wurde) und gewohnlichen sequentiellen 
Code getrennt (3717). 3717 wird auf parallelisierbare Teilalgorithmen untersucht (3703), die sequentiellen Teilalgorith- 
men werden ausgesondert (3718). Die parallelisierbaren Teilalgorithmen werden als Makros vorlaufig plaziert und ge- 
routet. 55 
[0226] In einem iterativen Prozess werden die Makros mit dem datenfluBoptimierten Code (3713) zusaramen plaziert, 
geroutet und partitioniert (3705). Eine Statistik (3706) wertet die einzelnen Makros, sowie deren Partitionierung hin- 
sichtlich der Effizienz aus, wobei die Umkonfigurationszeit und der Aufwand der Umkonfiguration in die Effizienzbe- 
trachtung einflieBt. Ineffiziente Makros werden entfernt und als sequentieller Code ausgesondert (3714). 
[0227] Der verbleibende parallele Code (3715) wird zusammen mit 37 1 6 compilieri und assembliert (3707) und VPU 60 
Objektcode ausgegeben (3708). 

[0228] Eine Statistik uber die Effizienz des generierten Codes, sowie der einzelnen (auch der mit 3714 entfernten Ma- 
kros) wird ausgegeben (3709), der Programmierer erhalt dadurch wesentliche Hinweise auf Geschwindigkeitsoptimie- 
rungen des Programmes. 

[0229] Jedes Makro des verbleibenden sequentiellen Codes wird auf seine Komplexitat und Anforderungen untersucht 65 
(3720). Aus einer Datenbank die von der VPU-Architektur und dem Computersystem abhangt (3719) wird der jeweils 
geeignete Sequenzer ausgewahlt und als VPU-Code (3721) ausgegeben. Ein Compiler (3721) generiert den Assembler- 
code des jeweiligen Makros fiir den jeweils von 3720 gewahlten Sequenzer und gibt ihn aus (3711). Die 3710 und 3720 
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sind eng miteinander verkniipft. Gegebenenfalls verlauftdie Abarbeitung iterativ urn den geeignetsten Sequenzer mil mi- 
nimalsten und schnellsten Assemblercode zu finden. 

[0230] Ein Linker (3722) faBt die Assemblercodes (3708, 3711, 3721) zusanunen und generierl den ausfuhrbaren Ob- 
jektcode(3723). 

5 [0231] Fig, 38 zeigt den internen Aufbau von 2720. Kern der Schaltung ist ein ladbarer Up/Down-Zahler (3801), der 
seinen Startwert von der Schaltung Fig. 27 von dem Bus 3803 (enlspricht 2703) iiber den entsprechend gesetzten Multi- 
plexer 3802 erhalt. Der Zahler dient als Programmzahler (PC) fiir den zugeordneten Sequenzer, der Startwert ist die erste 
Adresse des auszufuhrenden Programmes. Der Wert von 3801 wird uber einen Addierer (3805) und 3802 auf den Zahler 
zuriickgefuhrt. Uber den Bus 3804 wird von dem Sequenzer ein Offset an 3805 gefuhrt, der entweder vom PC abgezogen 

10 oder hinzuaddiert wird. Damit sind relative Spriinge effizient implementierbar. Der PC wird iiber den Bus 3811 an das 
PAE-Array herausgefuhrt und kann fiir call -Operationen auf dem Stack gespeichert werden. Fur ret-Operationen wird 
der PC uber 3804 und 3802 vom Stack auf 3801 gefuhrt 

[0232] Uber den Multiplexer 3806 wird entweder der PC oder ein vom PAE-Array zugefuhrter Stackpointer (3807) auf 
einen Addierer (3808) gefuhrt. Hier wird ein Offset den Werten abgezogen oder hinzuaddiert, der im Register 3809 ge- 
ts speichert wird und iiber 3803 geschrieben wird. 3808 cnnoglicht die Verschiebung des Programmes innerhalb des Spei- 
cher 2711. Dadurch werden Garbage-Collector Funktionen zum Aufraumen des Speichers moglich (vgl. PACT10). Die 
Adressverschiebung die durch den Garbage-Collector auflritt wird durch eine Anpassung des Offsets in 3809 ausgegli- 
chen. 

[0233] Fig. 38a ist eine Variante von Fig. 38 in der der Stackpointer (3820) ebenfalls integriert ist. Uber 3804 wird nur 

20 noch der Offset fur relative Spriinge an 3805 gefuhrt (3804a). Der Stackpointer ist ein Up/Down-Zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasentiert, und uber 3803 geladen wird. Der PC wird direkt an den 
Datenbus zum Speicher gefuhrt urn iiber einen Multiplexer bei call-Operationen auf den Stack geschrieben zu werden. 
Der Datenbus des Speichers wird uber 3821 und 3802 auf 3801 zuriickgekoppelt, zur Durchfuhrung von ret-Operationen. 
[0234] Fig. 39 verdeutlicht die Funktionsweise der Speicher. Der Speicher (3901) wird uber einen Multiplexer (3902) 

25 adressiert. Im Standard-Modus, Lookup-Modus und Register Modus werden die Adressen aus dem Array (3903) direkt 
an 3901 gefuhrt. Im Stack-Modus und FEFO-Modus werden die Adressen in einem up/down-Zahler (3904) generiert. In 
diesem Fall werden die Adressen der lOSeite von einem weitcren up/down-Zahler (3905) zur Verfiigung gestcllt Die 
Adressen fur den externen RAM (oder IO) werden von einem weiteren up/down-Zahler (3906) generiert, die Basis- 
adresse wird von einem Register (3907) geladen. Das Register wird von der CT oder einem externen Host-Prozessor ge- 

30 setzt. Die gesamte Sleuerung ubernimrnt eine Statemachine (3908). Den Zustand des Speichers (voll, leer, halbvoll, etc.) 
entnimmt 3908 einem up/down-Zahler (3909) der die Anzahl der im Speicher befindlichen Worte zahlt. Wird der Spei- 
cher blockweise verandert (Stadt auf externen Stack schreiben oder von externem Stack lesen) wird die GroBe des Blocks 
als Konstante (3917) auf einen Addierer/Subtrahierer (3910) gegeben, auf den der Zahlerstand von 3909 zuriickgekop- 
pelt ist. Das Ergebnis wird nach 3909 geladen. Damit laBt sich der Zahlerstand schnell an blockweise Veranderungen an- 

35 passen. (Natiirlich ist es moglich den Zahler auch mit jedem geschriebenen oder gelesenen Wort bei einer. Blockopera- 
tion zu modifizieren). Fiir Cache-Operationen steht ein Cache-Kontroller (3911) nach dem Stand der Technik zur Verfu- 
gung, dem ein Tag-Speicher (3912) zugeordnet ist. Je nach Betriebsart wird der Wert von 3911 oder 3906 iiber einen 
Multiplexer (3913) als Adresse nach auBen gefuhrt(3914). Uber den Bus 3915 werden die Daten nach auBen gefuhrt und 
iiber den Bus 3916 werden die Daten mit dem Array ausgetauscht. 

40 

Programmierbeispiele zur Verdeutiichung von Teilalgorithmen 



[0235] Ein Modul kann beispielsweise folgendermaBen deklariert werden: 
module examplel 
45 input (varl, var2 : tyi; var3 : ty 2 ). 
output (resl, res2 : ty 3 ). 
begin 

register <regname 1> (res 1 ). 
50 register <regname2> (rcs2). 
terminate® (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen mit den Typen ty Q . 
55 begin . . . end markieren den Rumpf des Modules. 

register <regnamel/2> ubergibt das Ergebnis an den Output, 

wobei des Ergebnis in dem durch <regnamel/2> spezifizierten Register zwischengespeichert wird. <regnamel/2> ist da- 
bei eine globale Referenz auf ein bestimmtes Register. 

[0236] Als weitere Obergabemodi an den Output stehen beispielsweise folgende Speicherarten zur Verfiigung: 
60 fifo <fifoname>, wobei die Daten an einen nach dem FIFO-Prinzip arbeitenden Speicher ubergeben werden. <fifoname> 
ist dabei eine globale Referenz auf einen bestimmten, im FIFO-Modus arbeitenden Speicher. terminate® wird dabei urn 
den Parameter bzw. das Signal "fifofuU" erweitert, der/das anzeigt, daB der Speicher voll ist. 

stack <stackname>, wobei die Daten an einen nach dem Stack-Prinzip arbeitenden Speicher ubergeben werden. <stack- 
name> ist dabei eine globale Referenz auf einen bestimmten, im Stack-Modus arbeitenden Speicher. 
65 [0237] terminate® unterscheidet die Programmierung entsprechend des erfindungsgemaBen Verfahrens von der her- 
kommlichen sequentiellen Programmierung. Der Befehl definiert das Abbruchkriterium des Modules. Die Eigebnisva- 
riablen resl und res2 werden von terminate® nicht mit ihrem tatsachlichen Wert evaluiert, statt dessen wird nur die Giil- 
tigkeit der Variablen (also deren Statussignal) gepruft Dazu werden die beiden Signale resl und res2 boolsch miteinan- 
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der verknupft, z. B. durch eine UND-, ODER- oder XOR-Operation. Sind beide Variablen giiltig, terminiert das Modul 

mit dem Wert 1. Das bedeutet, ein Signal mil dem Wert 1 wird an die ubergeordneten Ladeeinheit weitergeleitet, worauf- 

hin die ubergeordneten Ladeeinheit das nachfolgende Module ladt. 

module example2 

input (varl, var2 : ty 3 ; var3 : ty2) 

output (resl, ty 4 ). 

begin 

register <regnamel> (varl, var2). 
fifo <fifonamel> (resl, 256). 



to 



terminate® (fifofull (<fifonamel>); 1). 
end. 

[0238] register wird in diesem BeispieL uber input-Daten definiert. Dabei ist <regnamel> derselbe wie in example 1. 
Dies bewirkt, daB das Register, das die output-Daten in example 1 aufnimmt, die input-Daten fur example2 zur Verfu- 
gung stellt. 15 
[0239] fifo definiert einen FIFO-Speicher der Tiefe 256 fur die Ausgangsdaten resl . Das Full-Flag (fifofull) des FEFO- 
Speichers wird in terminate® als Abbruchkriterium verwendet. 
module main 

input (inl, in2 : ty L ; in3 : ty2). 

output (outl : ty 4 ). 20 
begin 

define <regnamel>: register(234) 
define <regname2>: register(26). 
define <fifonamel>: fifo(256,4). // FIFO Tiefe 256 

25 

(varl 2, var72) = call examplel (inl, in2, in3). 
(outl) = caU example2 (varl2, var72, var243). 

signal (outl) 30 

terminate® (example2). 

end. 

[0240] define definiert eine Schnittstelle fur Daten (Register, Speicher, etc.). Bei der Definition werden die erforderli- 
chen Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. Da die Ressourcen jeweils nur einmal zur Verfii- 
gung stehen, mussen sie eindeutig angegeben werden. Damit ist die Definition global, d. h. die Bezeichnung gilt fur das 35 
gesamte Programm. 

[0241] call ruft ein Modul als Unterprogranmi auf. 

[0242] signal definiert ein Signal als Ausgangssignal, ohne daB eine Zwischenspeicherung verwendet wird. 
[0243] Durch terminate® (example2) wird das Modul main terminiert, sobald das Unterprogramm examplc2 termi- 
niert. 40 
[0244] Durch die globale Deklaration "define . . ." ist es prinzipiell nicht mehr notwendig, die so definierten input/out- 
put Signale in die Schnittstellcn-Deklaration der Module aufzunehmen. 

Patentanspruche 

45 

Verfahren zum Betrieb einer umkonfigurierbaren Einheit, dadurch gekennzeichnet, daB die Quittierungssignale 
der konfigurierbaren Zellen zeitlich versetzt zu deren Konfiguration ausgewertet werden. 



Hierzu 44 Seite(n) Zeichnungen 

50 



55 



60 



65 



21 



- Leerseite - 



ZEICHNUNGEN SEITE 1 



Nummer; 
Int. CI. 7 : 

Offenlegungstag: 



DE 100 28 397 A1 
G06F 15/80 

20. Dezember 2001 



c 








arcode 
n 


-Code 




nthese 


— ► 


-j 




>% 




c 


Q 




CO 




CO 


X 









CO 








CD 


d> 




ynthese 




© 










L-Co 


— 


— ► 


iarco 


Q 




CO 




1_ 


I 








in 



o 
0 



0) 

-a 

C 
CO 



■o 
o 

O 
i 



CD 
> 

C 

CO 



0) 
O 

C 

in 



O) 

■ Ml 

U- 



101 510/234 




101 510/234 




101 510/234 



ZEICHNUNGEN SEITE4 Nummer: DE10028 397A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 5 Nummer: DE 100 28 397 A1 

Int.CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 6 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028 397A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 7 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE 10028 397 A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 8 Nummer: DE 10028397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




101 51Q/234 



ZEICHNUNGEN SEITE 9 



Nummer: 
Int. CI. 7 : 

Often legungstag: 



DE 100 28 397 A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 10 Nummer: DE 10028 397 A1 

Int. CI. 7 : G06F 15/80 

Offenlegungstag: 20. Dezember 2001 



(0 



-Q 
O 









V 












o 






o 














o 



UL 




o 
o 




111 



o LL o 



o 
o 



t t t t 



CO 

o 
o 



o 
o 





LU 



101 510/234 



ZEJCHNUNGEN SEITE 11 Nummer: DE10028 397A1 

IntCI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



(0 



o H 



o 
o 



o E 



o 
o 




101 510/234 



ZEICHNUNGEN SEITE 12 Nummer: DE 100 28 397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 13 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028 397 A1 
G06F 15/80 

20. Dezember 2001 



(0 

.5f CO 
LL t- 



CO 



o 

CO 



CO 



CD 
CO 



0> 

iu 

i 



o 



CO 
LU 

< 

GL 



O 



O 



LU 

£ 



u. 



CD 
UJ 
< 
GL 



O 



O 



ll 



LL 



O 



LU 



o 



LL. 





1 






< 


IX 


X 


o 




1 







o 











< 


s\ 
LL. 


X 


o 











i 



CO 

111 



O 



LL X O 



CM 
LU 
< 
LV 



< LL 



O 



<: lt 



LL X 

J 



< 



UJ 
< 

CL 



1 



o 



1 

X 



101 510/234 



ZEICHNUNGEN SEITE 14 Nummer; DE10028 397A1 

Int. CI. 7 : G 06 F 15/80 

Often legungstag: 20. Dezember 2001 



.EP co 

LL 



CD 
CO 



CO 



CO 



CD 
UJ 











X 


o 


1 















< IL 


X 


o 





















CO 
UJ 



UL 



J 



I 

a. x 



UJ 



o 



< u- 



< U-.X 



X 

N 



LL. 



CD 
LU 

2 



"1 

J 



o 



J 



o 



U- X 

1 



I 



in 

2 



i 



u. x 



o 



LL 



O 



I 



LU 

Ql 



LL X 



1 



< LL. 

1 



o 



I 



o 



< o 



o 



t * 



i 



o 



1 



I 



40l 



i i 



O 



i 



42- 



55? 



1 



42- 



< © 

'SI 



42- 



uj KN 
< < 

1 I 



o 

_7 



1 



o 



42- 



< © 



4°- 



O LL 

'SI 



101 510/234 



ZEICHNUNGEN SEITE 15 Nummer: DE 100 28 397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



il 



CD 
LU 



O) 
CO 



o 



CO 



CO 



1 

< u. 

I 



co 1 













X 


o 




i 

















CO 
LU 
< 
CL 



O 



















< 




X 


o 












1 







J 



o 



u- x 



4± 



£ 



I 

1 



U- X 



o 



I 

< 



4*- 



(D 
LU 



a 



a. x 

^1 



a 



4*- 



X o 



o 



m 

UJ 

£ 



"1 

Li- X 



a 



n 

<|LL X 



O 



i-L X O 

1 




3! 



LL X 



u. x 



o 



< U- X 

SSI 



o 



CO 
UJ 



< 



o 



< © 



CM 
LU 
< 

a. 



< 



<(5I 



I 

<e> 

I 



4^- 



J 



UJ 

£ 



<e> 



I 



o 



L40 



"1 

J 



40. 



1 



101 510/234 



ZEICHNUNGEN SEITE 16 Nummer: DE10028 397A1 

Int.CL 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



6) 

■ ■■■ 

LL 







1403 


1405 


1406 


1407 






o 






00 

o 




00 

o 




00 

o 














«t 
















CM 
O 






o 




o 




o 

T— 






CM 








M" 














T— 


CD 


s 






o 




CD 
O 




o> 
o 




r 


1413 




























I 

1 
1 













\ 

\ 

\ 

\ 




101 510/234 



ZE1CHNUNGEN SEITE 17 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028397A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 18 Nummer: DE 10028 397 A1 

Int.CI. 7 : G 08 F 15/80 

Offenlegungstag: 20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 19 



Nummer; 
Int. CI. 7 : 

Offenlegungstag: 



DE10028397A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 20 Nummer: DE100 28 397A1 

IntCI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




CO 

o 
oo 



101 510/234 



ZEICHNUNGEN SEITE 21 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE 100 28 397 A1 
G06F 15/80 

20. Dezember 2001 




ZEICHNUNGEN SEITE 22 



Nummer: 
Int. CL 7 : 

Offenlegungstag: 



DE 100 28 397 A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



2EICHNUNGEN SEITE 23 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE 10028397 A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 24 Nummer: DE 10028397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



A 

O 
CM 
CM 
CM 



CM 
CM 
CM 



f . \ ( \ 




< 








o 




CO 








o 


o 


o 




"3 


0) 
C 


nter A 


<D 

-»— • 

3 


3 


© 


3 


aj 
c 


nter B 


< 


< 


a> 

-4— » 


l_ 

<D 

■*-» 


Q> 


nter C 


o 


C 

"o 


5 < 


1 


> 


c 

"o tt) 


C 

o 


C 

"o 


CL 


CL 


o 


CL 


CL 


CL 


CL 




"o 


CD 


© 

3 


CLJC 


a 


a 


o 


E 


0) 


CL 


E 


E 


<D 


E 


CD ^ 


CL 


•w 

3 






a> 


CL 


8 




T3 


8 


8 




8 




■o 


CL 


CL 


1« 








Q. 


(0 




a. 




CL 


CO 


E 


E 


CL 


CL 


CL 


(0 




E 


O 






E 




E 


o 


8 


8 


E 


£ 


E 


o 




8 








8 




8 




8 


8 


8 




.Q 






n 


a 


-Q 


-Q 




-Q 


JQ 


.Q 


jQ 






JQ 




CM 




CO 




lO 


CO 


O 




CO 


03 


CM 


CO 




lO 


O 


O 


o 


o 


o 


O 


O 






O 


O 


T— 








CM 


CM 


CM 


CM 


CM 


CM 


CM 


CM 


CSI 


CM 


CM 


CM 


CM 


cm 


CM 


CM 


CM 


CM 


CM 


CM 


CM 


CM 


CM 


CNJ 


CM 


CM 


CM 


CM 


CM 


CM 



CD 
O 
CM 
CM 
CM 



CM 
CM 

6) 

mwmm 

UL 



CO 

T— 

CM 
CM 
CM 



a 





< 






a 










0Q 




O 


o 


o 




a> 


a> 
+-> 






ter 




< 


< 

x: 


< 


ter 


CO 
I— 


ter 


ter 


ter 


o 


c 


ute 


c 


-2 


0) 




c 


a> 


c 


c 


c 


© 




*o 


3 


*o 


3 


c 


> 


> 


o< 


c 


o CO 


o 


o 


c 


CL 


CL 


CL 


CL 


CL 


CL 


*o 


<D 




CLjC 


o 


CLjc 


CL 


CL 


o 


E 


a) 


E 


E 


a> 


E 


CL 


3 


-•-» 

3 




CL 






s 


CL 


CO 


"3 


8 


8 


3 


o 
o 




CL 


CL 






If 




3 




CL 






CL 




E 


E 


CL 




CL 


CL 


CL 


to 




E 






E 




8 


CO 


o 


E 


o 


E 


E 


E 


o 




8 






CO 






o 


CO 


8 


CO 


CO 





CO CO CO 

i- CM CO 

o o o 

CM CM CM 

CM CM CM 



CO (0 

^ lO 

O O 

CM CM 

CM CM 



CO CO 
CO 

O O 

CM CM CM 

CM CM CM 



CO 
00 

o 



CO CO CO CO CO CO CO 

0> O t- CM CO lO 

O t- r- t- tt- <r- <r- 

CM CM CM CM CM CM CM 

CM CM CM CM CM CM CM 



101 510/234 



ZEICHNUNGEN SEITE 25 



Nummer; 
Int. CI. 7 : 

Offenlegungstag: 



DE 100 28 397 Al 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 26 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE100 28 397A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 27 



Numrner: 
Int. CI. 7 : 

Offenlegungstag: 



DE100 28 397A1 
G06F 15/80 

20. Dezember 2001 




101 51Q/234 



ZEICHNUNGEN SEITE 28 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028 397 A1 
G06F 15/80 

20. Dezember 2001 



CM 
O 
CO 
CM 




CD 
CM 

mm— 

LL 



101 510/234 



ZEICHNUNGEN SEITE 29 Nummer: DE 10028 397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



O) 






O 


o 








CM 






CM 




0) 




O 


o 














CM 






CM 




CO 

o 



CM _ 
LL 









CM 










O 












CM 



in 
o 

CM 



101 510/234 



ZEICHNUNGEN SEITE 30 Nummer: DE 100 28 397 Al 

Int. CI. 7 : G08F 15/80 

Often legungstag: 20. Dezember 2001 



o 

00 
CM 



CO 

m 
o 
oo 

CM 



c 

IT) 

o 

00 
CM 



00 
CM 



O 
00 
CM 




CM 


CO 


O 


O 


CO 


00 


CM 


CM 



CM 


CO 


O 


O 


CO 


CO 


CM 


CM 





o 


CO 


CM 






CM 


CO 


o 


o 


CO 


00 


CM 


CM 



00 
CM 

ri) 
iZ 



— i 

i 
i 
i 

i 

i 

. i 



CM 



_J 



f* 



o 

oo 

CM 



CM 



101 510/234 



ZEICHNUNGEN SEITE 31 



Nummer; 
Int. CI. 7 : 

Offenlegungstag: 



DE10O28 397A1 
G06F 15/80 

20. Dezember 2001 



CM 

5) 

CM 



CM 

d> 
il 



2911 



T- 

o 

C4 



O 

CM 
CD 
CM 



CO 
O 
CD 
CM 



o 
o 

CD 
CM 



CM 
CM 
CD 
CM 



I 



CO 

o 
en 

CM 



CD 
CM 



I 



o 

CD 
CM 



CM 
CD 
CM 

O 
CM 

o> 

CM 



CO 
CM 
CD 
CM 



O 
CM 
0) 
CM 



O 
CD 
CM 



CO 
O 
CD 
CM 



to 

O 
CD 
CM 



o 

CD 
CM 



lO 

CD 
CM 



CM 
O 
0) 
CM 



CM 
CD 
CM 



101 510/234 



ZEICHNUNGEN SEITE 32 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE100 28 397 A1 
G06F 15/80 

20. Dezember 2001 




ZEICHNUNGEN SEITE 33 Nummer: DE 100 28 397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




CM 


CO 


O 


O 






CO 


CO 


ACM A CI 



1 



o 
o 

CO 
















/ 





























o 
co 



CM 
O 

T- 

co 



is 



CM 

5 
CM 



§ 

CO 



CO 
CO 

6) 

















/ 





























o 

CO 



CM 


CO 


O 


o 






CO 


co 



s 



JQ 
CO 




101 510/234 



ZEICHNUNGEN SEITE34 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE 100 28 397 A1 
G08F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE35 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028397A1 
G06F 15/80 

20. Dezember 2001 



CM 




O 
CM 
CD 
CM 



O 
CD 
CM 



CO 

o 

CD 
CM 



lO 

o 

CD 
CM 



O 

gd 

CM 



CM 
O 
CD 
CM 



CM 
CD 
CM 



LO 

CD 
CM 



101 510/234 



ZEICHNUNGEN SEITE 37 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028397A1 
G06F 15/80 

20. Dezember 2001 



3503 



lO 

CO 



o 

lO 
CO 



CM 

o 
m 

CO 



o 

lO 

CO 



o 
m 

CO 



CO 



O) 

mmm 

U. 



CO 



m 

o. 
m 
co 



o 
m 

CO 



CM 

o 
m 

CO 



o 
m 

CO 



CM 
O 

m 

CO 



CO 

o 
m 

CO 



101 510/234 



ZEICHNUNGEN SEITE 40 Nummer: DE 10028397 A1 

Int. CI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 



00 

o 

CO 
CO 



o 


CO 






E> — 


o 




o 


00 


CO 


•4 


CO 


CO 


CO 




kco 



CO 
CO 
CO 

ri> 

■ mm 

Li. 



CO 

o 

CO 
CO 



CM_ 

CO 

CO 

CM 
CM, 
CO 
CO 



o 




02\ 


CO 
CO 


■< 


CO 

kco 





m 
o 

CO 
CO 



(0 

-o 

CO 
CO 



o 

CM 
00 
CO 



oo 
o 

CO 
CO 



o 


CO 








o 




o 


CO" 


CO 




CO 


CO 


CO 




kco 




101 510/234 



ZEICHNUNGEN SEITE41 Nummer: DE 10028397 Al 

IntCI. 7 : G 06 F 15/80 

Offenlegungstag: 20. Dezember 2001 




91 3 N 







CD 


o 




O 


0) 




O) 


CO 




CO 



CM 










o> 


CO 


CO 




00 

o 

CD 
CO 



CD 




O 


O 






CD 




S 


CO 




CO 



COCO 
Ot- 
CDO> 
COCO 



CO 



101 510/234 



ZEICHNUNGEN SEITE 42 



Numnner: 
Int. CI. 7 : 

Offenlegungstag: 



DE 10028 397 A1 
G06F 15/80 

20. Dezember 2001 




o 

■ 

O) 
LL 



T 



101 510/234 



2EICHNUNGEN SEITE 43 



Nummer: 
Int. CI. 7 : 

Offenlegungstag: 



DE10028 397A1 
G06F 15/80 

20. Dezember 2001 




101 510/234 



ZEICHNUNGEN SEITE 44 



Nummer; 
Int. CI. 7 : 

Offenlegungstag: 



DE 100 28 397 A1 
G06F 15/80 

20. Dezember 2001 





101 510/234 



